跳转至

第 1 次作业

理论部分(范数与二次型)

习题 1

请证明:对任意 $ { A } \in \mathbb { R } ^ { m \times n }$ ,由

\[ \| \boldsymbol {A}\|_{m_{\infty}}:= \max_{1\leq i\leq m,1\leq j\leq n}|a_{ij}| \]

定义的 \(\| \cdot \| _ { m _ { \infty } }\)\(\mathbb { R } ^ { m \times n }\) 上的(广义)矩阵范数。

解. 非负性:显然

\[ \| \boldsymbol {A}\|_{m_{\infty}}:= \max_{1\leq i\leq m,1\leq j\leq n}|a_{ij}|\geq 0, \]

而且仅当 \(A = 0\) 时, \(\| A \| _ { m _ { \infty } } = 0\) .

齐次性: $$ \left| c \cdot \boldsymbol {A} \right| _ {m _ {\infty}} := \max _ {1 \leq i \leq m, 1 \leq j \leq n} | c \cdot a _ {i j} | = c \max _ {1 \leq i \leq m, 1 \leq j \leq n} | a _ {i j} | = c | \boldsymbol {A} | _ {m _ {\infty}} $$

三角不等式:考虑 \(\| A + B \| _ { m _ { \infty } }\) ,因为

\[ \left| a _ {i j} + b _ {i j} \right| \leq \left| a _ {i j} \right| + \left| b _ {i j} \right| \leq \max _ {1 \leq i \leq m, 1 \leq j \leq n} \left| a _ {i j} \right| + \max _ {1 \leq i \leq m, 1 \leq j \leq n} \left| b _ {i j} \right| \]

所以

\[ \max _ {1 \leq i \leq m, 1 \leq j \leq n} | a _ {i j} + b _ {i j} | \leq \max _ {1 \leq i \leq m, 1 \leq j \leq n} | a _ {i j} | + \max _ {1 \leq i \leq m, 1 \leq j \leq n} | b _ {i j} | \]

\(\left\| A + B \right\| _ { m _ { \infty } } \leq \left\| A \right\| _ { m _ { \infty } } + \left\| B \right\| _ { m _ { \infty } }\)

习题 2

\(a_1,a_2,\cdots,a_n\)\(n\)个正数,证明:由 $\(\Omega({x})=\left(\sum_{i=1}^na_ix_i^2\right)^{\frac{1}{2}}\)$ 定义的函数\(\Omega: \mathbb{R}^n\to\mathbb{R}\)是一个范数。

同习题1根据定义证明:非负性、齐次性和三角不等式。

习题 3

求下面矩阵的 1-范数、2-范数和无穷范数:

\[ A _ {1} = \left( \begin{array}{c c} 1 & 2 \\ 1 & 0 \end{array} \right), A _ {2} = \left( \begin{array}{c c} - 1 & 0 \\ 1 & 2 \end{array} \right). \]

解. \(A _ { 1 } ^ { T } A _ { 1 } = { \left( \begin{array} { l l } { 2 } & { 2 } \\ { 2 } & { 4 } \end{array} \right) }\)

\[ \lambda_ {m a x} \left(A _ {1} ^ {T} A _ {1}\right) = 3 + \sqrt {5} \]
\[ \left\| A _ {1} \right\| _ {1} = 2, \left\| A _ {1} \right\| _ {2} = \sqrt {3 + \sqrt {5}}, \left\| A _ {1} \right\| _ {\infty} = 3 \]
\[ A _ {2} ^ {T} A _ {2} = \left( \begin{array}{c c} 2 & 2 \\ 2 & 4 \end{array} \right) \]
\[ \left\| A _ {2} \right\| _ {1} = 2, \left\| A _ {2} \right\| _ {2} = \sqrt {3 + \sqrt {5}}, \left\| A _ {2} \right\| _ {\infty} = 3 \]

习题 4

证明:\(\|{A}{B}\|_F\leq \|{A}\|_F\|{B}\|_F\)\(\|{A}{B}\|_F\leq \|{A}\|_F\|{B}\|_2 .\)

这道题已经在习题课给大家讲解了。提示:可根据矩阵分块的方式证明。

习题 5

阅读完以下补充材料即可:

将一个带有交叉项的二次型转变成没有交叉项的二次型等同于将对称矩阵合同变换为一个对角矩阵。它的几何意义,可以看作是将二次方程所对应的几何图形标准化的过程。例如:在平面上,即椭圆、抛物线和双曲线等二次曲线的标准化过程;在空间上,即二次曲面的标准化过程。下面通过主轴定理及其几何意义窥见一斑。

image-20260501152548975

\[ \frac {x _ {1} ^ {2}}{a ^ {2}} + \frac {x _ {2} ^ {2}}{b ^ {2}} = 1, a > b > 0 \]

image-20260501152602656

\[ \frac {x _ {1} ^ {2}}{a ^ {2}} - \frac {x _ {2} ^ {2}}{b ^ {2}} = 1, a > b > 0 \]

图 1: 对角矩阵时对应标准二次曲线

主轴定理

定理 0.0.1. 令 \(A\) 是任意一个 \(n \times n\) 的对称矩阵,那么存在一个正交变换 \(x = P y\) 使得二次型 \(x ^ { T } A x\) 转变为 \(y ^ { T } D y\) ,其中 \(D = P ^ { T } A P\) 是对角矩阵。

定理中 \(P\) 的列称为二次型 \(x ^ { T } A x\) 的主轴。向量 \(y\) 是向量 \(x\) 在这些主轴下的坐标。

主轴定理的几何意义

假设 \(Q ( x ) = x ^ { T } A x\) ,其中 \(\boldsymbol { x } \in \mathbb { R } ^ { 2 }\)\(A\)\(2 \times 2\) 可逆对称矩阵, \(c\) 是常数。可以证明 \(\mathbb { R } ^ { 2 }\) 中所有满足 \(x ^ { T } A x = c\)\(x\) 的集合可能为椭圆(圆)、双曲线、两相交直线、点或者空集。如果 \(A\) 是对角矩阵,那么二次曲线将是标准的二次曲线,如图1所示。如果 \(A\) 不是对角矩阵,那么二次曲线将是非标准的二次曲线。图2是二次方程为 \(5 x _ { 1 } ^ { 2 } - 4 x _ { 1 } x _ { 2 } + 5 x _ { 2 } ^ { 2 } = 4 8\) 的椭圆曲线。显然,它不是一个标准的二次曲线。下面,我们通过寻找该椭圆的主轴将其转化为标准形式,从几何的角度验证主轴定理。

易求得该椭圆方程对应二次型的矩阵表示为

\[ A = \left( \begin{array}{c c} 5 & - 2 \\ - 2 & 5 \end{array} \right). \]

可计算出其特征值为3 和7,对应的特征向量分别为

\[ v _ {1} = \left( \begin{array}{c} 1 / \sqrt {2} \\ 1 / \sqrt {2} \end{array} \right), v _ {2} = \left( \begin{array}{c} - 1 / \sqrt {2} \\ 1 / \sqrt {2} \end{array} \right). \]

image-20260501152754996

图 2: 非对角矩阵对应非标准二次曲线

\(P = \left[ v _ { 1 } v _ { 2 } \right]\) ,则从图形中可以看出 \(P\) 的列向量,正好对应该椭圆主轴所在的方向。现将 \(x = P y\) 代入二次型,可得

\[ y ^ {T} D y = 3 y _ {1} ^ {2} + 7 y _ {2} ^ {2}. \]

即可得到椭圆的标准方程形式。

习题 6

矩阵的范数主要包括三种主要类型:诱导范数,元素形式范数和 Schatten范数。诱导范数又称矩阵空间上的算子范数 (operator norm),常用的诱导范数为 \(p\) 范数, 定义如下

\[ \| A \| _ {p} = \sup _ {\| x \| _ {p} \neq 0} \frac {\| A x \| _ {p}}{\| x \| _ {p}} = \sup _ {\| x \| _ {p} = 1} \| A x \| _ {p} \]

注:矩阵的诱导范数是由向量范数诱导而来的,向量中的每个元素诱导为了每个列向量 (基)。

(1) 设 \(A = ( a _ { i j } ) \in C ^ { m \times n }\) ,证明 \(I\) 范数为列和范数,无穷范数为行和范数 $$ | A | _ {\infty} = \max _ {1 \leqslant i \leqslant m} \sum_ {j = 1} ^ {n} | a _ {i j} |, | A | _ {1} = \max _ {1 \leqslant j \leqslant n} \sum_ {i = 1} ^ {m} | a _ {i j} | $$

元素形式范数即矩阵按列排成向量,然后采用向量范数的定义得到的矩阵范数,一般称 \(l _ { p }\) 范数。

\[ l _ {p}: \| A \| _ {p} = \sqrt [ P ]{\sum_ {i , j} \left| a _ {i j} \right| ^ {P}} \]

(2) 试比较 \(l _ {1}\) 范数

\[ l _ {1}: \| A \| _ {1} = \sum_ {i, j} | a _ {i j} | ^ {1} \]

与诱导范数的关系

解. (1)

\[ \begin{array}{l} A = (a_1, \dots , a _ {n}) \\ \| A x \| _ {1} = \| \sum_ {i} a _ {i} x _ {i} \| _ {1} \\ \leqslant \sum_ {i} \| a _ {i} x _ {i} \| _ {1} \\ = \sum_ {i} \| x _ {i} \| \| a _ {i} \| _ {1} \\ \leqslant \left(\max \left\| a _ {i} \right\| _ {1}\right) \left(\sum_ {i} \left| x _ {i} \right|\right) \\ = \max _ {1 \leq j \leq n} \sum_ {i = 1} ^ {m} \left| a _ {i j} \right| \| x \| _ {1} \\ \| A x \| _ {\infty} = \max _ {i} \left| \sum_ {j} a _ {i j} x _ {j} \right| \\ \left| \sum_ {j} a _ {i j} x _ {j} \right| \leq \sum_ {j} | a _ {i j} x _ {j} | \\ \leq \sum_ {j} \left| a _ {i j} \right| \max _ {j} \left| x _ {j} \right| \\ \left| \left| A x \right| \right| _ {\infty} \leqslant \max _ {1 \leq i \leq m} \sum_ {j = 1} ^ {n} \left| a _ {i j} \right| \| x \| _ {\infty} \\ \end{array} \]

(2)以 \(l _ {1}\) 范数与 1 范数,无穷范数为例,有

\[ \begin{array}{l} \| X \| _ {1} \leqslant \| X \| _ {1} (l 1) \leqslant n \| X \| _ {1} \\ \| X \| _ {\infty} \leqslant \| X \| _ {1} (l 1) \leqslant m \| X \| _ {\infty} \\ \end{array} \]

习题 7

阅读完以下补充材料即可:

\(\begin{array} { r } { \| A \| _ { p } = \operatorname* { s u p } _ { \| x \| _ { p } \neq 0 } \frac { \| A x \| _ { p } } { \| x \| _ { p } } } \end{array}\)

矩阵 \(A\) 的诱导范数可理解为线性变换 \(A x\) 对向量 \(x\) 的最大“拉长倍数”

\(\| A \| _ { p } = \operatorname* { s u p } _ { \| x \| _ { p } = 1 } \| A x \| _ { p } ,\)

矩阵 \(A\) 的诱导范数也可理解为 \(x\) 在单位范数球上运动时 \(\| A x \| _ { p }\) 的最大值

以下情形可便于理解诱导范数

image-20260501150647599

图 3: 诱导范数例 \(\mathrm { ( p } \mathrm { = } 2 )\)

image-20260501150705113

图 4: 诱导范数例 \(( \mathsf { p } \mathrm { = } 1 )\)

例: 左图为 \(A = \left( \begin{array} { c c } { { 1 } } & { { 1 } } \\ { { 1 } } & { { 1 } } \end{array} \right) , p ( A ) = 1 , p = 2\) 时的情形,在 \(x = ( \sqrt { 2 } / 2 , \sqrt { 2 } / 2 )\) \(\| A x \| _ { 2 }\) 取到最大值2

例:右图绿线为 \(A = \left( \begin{array} { c c } { { 2 } } & { { 0 } } \\ { { 0 } } & { { 2 } } \end{array} \right) , p = 1\) 时的情形,在 \(x = ( 1 , 0 )\)\(\| A x \| _ { 1 }\) 取到最大值2

例: 右图橙线为 \(A = \left( \begin{array} { c c } { { 2 } } & { { 0 } } \\ { { 1 } } & { { 2 } } \end{array} \right) , p = 1\) 时的情形,在 \(x = ( 1 , 1 )\) \(\| A x \| _ { 1 }\) 取到最大值3

(1) 试证明

\[ \left| \left| A \right| \right| _ {2} = \sigma_ {\max } = \sqrt {\lambda \left(A ^ {\top} A\right)} \]

,其中 \(\sigma _ { m a x }\) 为谱范数,即矩阵 \(A\) 的最大奇异值, \(\lambda \left( A ^ { \top } A \right)\) 表示 \(A ^ { \top } A\) 的最大特征值。

证: 即证明对于矩阵 \(A _ { m \times n }\) ,对任意向量 \(x _ { i }\) ,在矩阵 \(A\) 的变换(即 \(A x\) )后, 其长度不大于 \(\sigma _ { m a x } \| x \| _ { 2 }\)\(\| A x \| _ { 2 } \leq \sigma _ { m a x } \| x \| _ { 2 }\)

\(A ^ { \top } A\) 是实对称阵,其特征向量两两正交。不妨令 \(B = A ^ { \top } A ,\) ,特征向量矩阵为 $\lambda = d i a g ( \lambda _ { 1 } , . . . , \lambda _ { n } ) $

\(p_1, ..., p_n\)\(B\) 的一组标准正交特征向量,则 \(P = ( p _ { 1 } , . . . , p _ { n } )\) 为正交矩阵, 故

\[ B P = P \lambda \Leftrightarrow B = P \lambda P ^ {- 1} \Leftrightarrow B = P \lambda P ^ {\top} \]

(称 \(\lambda\) 合同于 \(B )\) 假设对一个向量 \(x ,\) 在矩阵 \(A\) 的变换(即 \(A x\) )后得到 \(y\), 即满足 \(y = A x\) 。则

\[ \left\| y \right\| _ {2} ^ {2} = y ^ {\top} y = (A x) ^ {\top} (A x) = x ^ {\top} A ^ {\top} A x = x ^ {\top} B x = x ^ {\top} P \lambda P ^ {\top} x \]
\[ = (P ^ {\top} x) ^ {\top} \lambda P ^ {\top} x \]

对于二次型,可以看作是一个二次齐次多项式的图形,而正交矩阵 \(P\) 的变换,可以保证变换图形的形状和大小不变,仅仅做了位移、旋转或翻转的变换,类似把物体从一个地方移到另一个地方。(可以想象一个三维坐标系,在坐标系上的点构成的图形通过一个非正交的基表示,现坐标系换了一组标准正交基 \(P\) ,用这组基变换图形不过是移动 (掰正) 了图形的位置。记 \(z = P ^ { \top } x\) ,所以 \(z\) 不过是一个与 \(x\) 一样的(同范数的)向量,只是换了位置,而 \(\lambda = d i a g ( \lambda _ { 1 } , . . . , \lambda _ { n } )\) 则进行了掰正位置后的放缩。因而 $$ \begin{array}{l} | y | ^ {2} = z ^ {T} \left( \begin{array}{c c c} \lambda_ {1} & & \ & \ddots & \ & & \lambda_ {n} \end{array} \right) z = \sum_ {i} \lambda_ {i} z _ {i} ^ {2} \ = \sum_ {i} \left(\sqrt {\lambda_ {i}} z _ {i}\right) ^ {2} \leq \sum_ {i} \left(\max _ {j} \left(\sqrt {\lambda_ {j}}\right) z _ {i}\right) ^ {2} \ = \max \left(\sqrt {\lambda_ {j}}\right) ^ {2} \sum_ {i} z _ {i} ^ {2} = \max \left(\lambda_ {j}\right) | z | ^ {2} = \max \left(\lambda_ {j}\right) | x | ^ {2} \ \end{array} $$

当且仅当除 \(\boldsymbol { z } _ { o p t \operatorname* { m a x } _ { j } \left( \lambda _ { j } \right) }\) 以外的其他元素均等于 \(0\) 时, 该不等式的等号成立。

\(\| A x \| _ { 2 } \leq \sigma _ { m a x } \| x \| _ { 2 }\) ,证毕

(2)元素形式下矩阵的 \(l _ { 2 }\) 范数称为 Frobenius 范数,即

\[ l _ {2}: \| A \| _ {F} = \sqrt {\sum_ {i , j} | a _ {i j} | ^ {2}} \]

试比较 \(\| A \| _ { 2 }\)\(\| A \| _ { F }\) 的大小

答: \(\| A \| _ { 2 } \leq \| A \| _ { F }\)