2¶

【Hint】

题目如无特殊注明，对于向量$\mathbf{x}=\begin{pmatrix} x_1 \ x_2 \ ... \ x_n \end{pmatrix} $，它的范数$||\mathbf{x}||p$为其$l_p$范数，$||\mathbf{x}||_p=(\sum^{n}$}|x_i|^p)^{\frac{1}{p}

对于矩阵$A\in \mathbb{R}^{m×n}$，它的$l_p$范数为$||\mathbf{A}||_{m_p}=(\sum^{m}_{i=1}\sum^{n}_{j=1}|a_{ij}|^p)^{\frac{1}{p}},||\mathbf{A}||_{m_2}=||\mathbf{A}||_F$

它的$p$范数为算子范数，比如说$\| A \|_1 = \max_{1 \leq j \leq n} \sum_{i=1}^{m} |a_{ij}|,\| A \|_\infty = \max_{1 \leq i \leq m} \sum_{j=1}^{n} |a_{ij}|,\| A \|_2 =\sqrt{\lambda_{max}(A^TA)}$

习题1¶

（1）¶

设$a_1,a_2,...a_n$是$n$个正数，$\mathbf{x}=\begin{pmatrix} x_1 \ x_2 \ ... \ x_n \end{pmatrix} $，证明：由$ \Omega(\mathbf{x})=(\sum^{n}{i=1}a {i}x_i^2)^{\frac{1}{2}} $ 定义的函数 $ \Omega $ : $ \mathbb{R}^ {n} \rightarrow \mathbb{R} $ 是一个范数。

证明：

【非负性】$a_i>0,x_i^2\geq0$ 故$a_i x_i^2\geq0, \Omega(\mathbf{x})\geq0$

当且仅当$x_1=x_2=...=x_n=0$时，$\Omega(\mathbf{x})=0$成立

【齐次性】$\Omega(\lambda\mathbf{x})=({\lambda}^2\sum^{n}_{i=1}a_ {i}x_i^2)^{\frac{1}{2}}=|\lambda|\Omega(\mathbf{x})$ 齐次性成立

【三角不等式】$\Omega(\mathbf{x}+\mathbf{y})=(\sum^{n}_{i=1}a_ {i}(x_i+y_i)^2)^{\frac{1}{2}}$

$\Omega^2(\mathbf{x}+\mathbf{y})=\sum^{n}_{i=1}a_{i}x_i^2+\sum^{n}_{i=1}a_{i}y_i^2+2\sum^{n}_{i=1}a_{i}x_iy_i$

$\leq \Omega^2(\mathbf{x})+\Omega^2(\mathbf{y})+2\Omega(\mathbf{x})\Omega(\mathbf{y})=[\Omega(\mathbf{x})+\Omega(\mathbf{y})]^2$

再根据非负性，$\Omega(\mathbf{x}+\mathbf{y})\leq\Omega(\mathbf{x})+\Omega(\mathbf{y})$，三角不等式得证

综上所述，$ \Omega $ : $ \mathbb{R}^ {n} \rightarrow \mathbb{R} $ 是一个范数。

（2）¶

证明：对任意$A\in \mathbb{R}^{m×n}$，由$||A||_{m_{\infty}} := \underset{1\leq i \leq m,1\leq j \leq n}{max} |a_{ij}|$定义的$||·||_{m_{\infty}}$是$\mathbb{R}^{m×n}$上的（广义）矩阵范数。

证明：

非负性：显然 $$ ||A||{m| \geq 0, $$}} := \max_{1 \leq i \leq m, 1 \leq j \leq n} |a_{ij

而且当且仅当 $A = 0$ 时，$||A||_{m_{\infty}} = 0$。

齐次性： $$ ||c \cdot A||{m| = c ||A||}} := \max_{1 \leq i \leq m, 1 \leq j \leq n} |c \cdot a_{ij}| = c \max_{1 \leq i \leq m, 1 \leq j \leq n} |a_{ij{m $$}

三角不等式：考虑 $||A+B||_{m_{\infty}}$，因为 $$ |a_{ij} + b_{ij}| \leq |a_{ij}| + |b_{ij}| \leq \max_{1 \leq i \leq m, 1 \leq j \leq n} |a_{ij}| + \max_{1 \leq i \leq m, 1 \leq j \leq n} |b_{ij}| $$

所以

\[ \max_{1 \leq i \leq m, 1 \leq j \leq n} |a_{ij} + b_{ij}| \leq \max_{1 \leq i \leq m, 1 \leq j \leq n} |a_{ij}| + \max_{1 \leq i \leq m, 1 \leq j \leq n} |b_{ij}| \]

即

$$ ||A+B||{m \leq ||A||}{m + ||B||}{m $$ 综上所述，由}$||A||_{m_{\infty}} := \underset{1\leq i \leq m,1\leq j \leq n}{max} |a_{ij}|$定义的$||·||_{m_{\infty}}$是$\mathbb{R}^{m×n}$上的（广义）矩阵范数。

习题2¶

求矩阵

$\begin{pmatrix} 1 & -1 & 0 \\ 2 & 4 & 1 \\ 4 & 2 & 1 \end{pmatrix} \tag{3}$

的行空间、列空间、零空间和左零空间。

解：

解. 先对矩阵

\[ \begin{pmatrix} 1 & -1 & 0 \\ 2 & 4 & 1 \\ 4 & 2 & 1 \end{pmatrix} \]

进行初等变换。

\[ \begin{pmatrix} 1 & -1 & 0 \\ 2 & 4 & 1 \\ 4 & 2 & 1 \end{pmatrix} \to \begin{pmatrix} 1 & -1 & 0 \\ & 6 & 1 \\ & -6 & -1 \end{pmatrix} \to \begin{pmatrix} 1 & -1 & 0 \\ & 6 & 1 \\ \\ \end{pmatrix} \]

所以该矩阵的秩为 2。

所以行空间为 $ \text{span} { (1, -1, 0)^T, (2, 4, 1)^T }$

列空间为 $ \text{span} { (1, 2, 4)^T, (-1, 4, 2)^T }$

零空间为 $ \text{span} { (1, 1, -6)^T }$

左零空间为 $ \text{span} { (2, 1, -1)^T }$。

习题3¶

（1）¶

求下面矩阵的1范数，2范数和无穷范数：

\[A_1=\begin{pmatrix}1&2\\1&0\end{pmatrix},A_2=\begin{pmatrix}-1&0\\1&2\end{pmatrix}.\]

解：

$A_1^TA_1=\begin{pmatrix}2&2\\2&4\end{pmatrix}$

$\lambda_{max}(A_1^TA_1)=3+\sqrt{5}$

$\|A_1\|_1=2,\|A_1\|_2=\sqrt{3+\sqrt{5}},\|A_1\|_{\infty}=3$

$A_2^TA_2=\begin{pmatrix}2&2\\2&4\end{pmatrix}$

$\|A_2\|_1=2,\|A_2\|_2=\sqrt{3+\sqrt{5}},\|A_2\|_{\infty}=3$

（2）¶

设$a_1=\begin{pmatrix} 1 \\ 2 \\ -1 \end{pmatrix}$，$a_2=\begin{pmatrix} -1 \\ 3 \\ 1 \end{pmatrix}$，$a_3=\begin{pmatrix} 4 \\ -1 \\ 0 \end{pmatrix}$，试将向量组$(a_1,a_2,a_3)$标准正交化。

解： $$\hat{\beta}_1 = \alpha_1 = \begin{pmatrix} 1 \\ 2 \\ -1 \end{pmatrix}, \quad \beta_1 = \frac{1}{\|\hat{\beta}_1\|} \hat{\beta}_1 = \frac{1}{\sqrt{6}} \begin{pmatrix} 1 \\ 2 \\ -1 \end{pmatrix}$$

\[\hat{\beta}_2 = \alpha_2 - \langle \alpha_2, \beta_1 \rangle \beta_1 = \begin{pmatrix} -1 \\ 3 \\ 1 \end{pmatrix} - \frac{2}{3} \begin{pmatrix} 1 \\ 2 \\ -1 \end{pmatrix} = \frac{5}{3} \begin{pmatrix} -1 \\ 1 \\ 1 \end{pmatrix}, \quad \beta_2 = \frac{1}{\|\beta_2\|} \hat{\beta}_2 = \frac{1}{\sqrt{3}} \begin{pmatrix} -1 \\ 1 \\ 1 \end{pmatrix}\]

\[\hat{\beta}_3 = \alpha_3 - \langle \alpha_2, \beta_1 \rangle \beta_1 - \langle \alpha_2, \beta_1 \rangle \beta_1 = \begin{pmatrix} 4 \\ -1 \\ 0 \end{pmatrix} - \frac{1}{3} \begin{pmatrix} 1 \\ 2 \\ -1 \end{pmatrix} + \frac{5}{3} \begin{pmatrix} -1 \\ 1 \\ 1 \end{pmatrix} = \begin{pmatrix} 2 \\ 0 \\ 2 \end{pmatrix}\]

\[\beta_3 = \frac{1}{\|\hat{\beta}_3\|} \hat{\beta}_3 = \frac{1}{\sqrt{2}} \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix}\]

故标准化后的向量组为： $$\frac{1}{\sqrt{6}} \begin{pmatrix} 1 \\ 2 \\ -1 \end{pmatrix}, \quad \frac{1}{\sqrt{3}} \begin{pmatrix} -1 \\ 1 \\ 1 \end{pmatrix}, \quad \frac{1}{\sqrt{2}} \begin{pmatrix} 1 \\ 0 \\ 1 \end{pmatrix}$$

习题4¶

对偶范数常在共轭函数及一些不等式中出现。向量的对偶范数定义为：

令$||·||$为$\mathbb{R}^ {n}$上的范数，对应的对偶范数用$||·||_{*}$表示，满足：

$||z||_{*}=sup \{ z^{T}x | \space ||x|| \leq1 \}= \underset{||x|| \not=0}{sup} \frac{z^{T}x}{||x||}$

目前已知一条性质——若向量范数 $ l_ {p} $ 与 $ l_ {q} $ 互为对偶范数,则$p,q$ $ \in $ $ \mathbb{R}^ {n} $ 需满足 $ \frac {1}{p} $ + $ \frac {1}{q}=1 $ （称$p,q$为Hölder共轭）试用对偶范数定义及上述性质证明Hölder不等式:

对 $p>1, \frac {1}{p} $ + $ \frac {1}{q} = 1$ ,以及 $x,y \in $ $ \mathbb{R}^ {n} $ $ \sum _ {i=1}^ {n} $ $|x_ {i}y_ {i}|$ $ \leqslant $ $ (\sum _ {i=1}^ {n} $ $ |x_ {i}|^{p})^{\frac{1}{p}}$ $( \sum _ {i=1}^ {n} |y_ {i}|^q)^{\frac{1}{q}}$

证明：

根据定义，$||y||_{*}=\underset{||x|| \not=0}{sup} \frac{y^{T}x}{||x||}$，可得$\frac{y^{T}x}{||x||} \leq ||y||_{*}$ 即$ y^{T}x \leq ||y||_{*}||x||$

然后再根据已知的性质，对 $p>1, \frac {1}{p} $ + $ \frac {1}{q} = 1$，$||·||p$和$||·||_q$这两个范数相互对偶，设$||·||=||·||_p$，则$||·||=||·||_q$

将其带回刚刚的式子，有$y^{T}x \leq ||y||_{q}||x||_p$

$ (\sum _ {i=1}^ {n} $ $ |x_ {i}|^{p})^{\frac{1}{p}}=||x||_p$

$ (\sum _ {i=1}^ {n} $ $ |y_ {i}|^{q})^{\frac{1}{q}}=||y||_q$

若$x_i\geq 0,y_i \geq 0或x_i\leq 0,y_i \leq 0,i=1,2,...,n$，显然$ \sum _ {i=1}^ {n} $ $|x_ {i}y_ {i}|=y^{T}x $

若$x_i\geq 0,i=1,2,...,n$但 $y_{m1}<0,y_{m2}<0,...,y_{mt}<0$ ($\mathbf{y}$有$t$个元素小于0)

取$\mathbf{z}= \text{span} \{ (y_1,...-y_{m1},...-y_{m2},...-y_{mt},...y_n)^T \}$ ($\mathbf{y}$的$t$个负元素取反，其他不变)

显然$ \sum _ {i=1}^ {n} $ $|x_ {i}y_ {i}|=z^{T}x $ $,||y||_q=||z||_q$ $,\sum _ {i=1}^ {n}|x_ {i}y_ {i}|=z^{T}x \leq ||z||_q ||x||_p$ 符合原式

若$y_i\geq 0,i=1,2,...,n$但 $x_{m1}<0,x_{m2}<0,...,x_{mt}<0$ ($\mathbf{x}$有$t$个元素小于0)，与刚刚所述的情况是等价的

综上所述，原式得证。

习题5¶

（1）¶

考虑向量空间$\mathbb{R}^3$，求由向量 $$ \begin{pmatrix} 1 \ 2 \ 0 \end{pmatrix}, \begin{pmatrix} 0 \ 1 \ 2 \end{pmatrix} $$ 张成的子空间的正交补空间。

解：

容易知道向量$\begin{pmatrix} 4 \\ -2 \\ 1 \end{pmatrix}$与向量$\begin{pmatrix} 1 \\ 2 \\ 0 \end{pmatrix}, \begin{pmatrix} 0 \\ 1 \\ 2 \end{pmatrix}$均正交。

又向量组

\[ \begin{pmatrix} 4 \\ -2 \\ 1 \end{pmatrix}, \begin{pmatrix} 1 \\ 2 \\ 0 \end{pmatrix}, \begin{pmatrix} 0 \\ 1 \\ 2 \end{pmatrix} \]

的秩为 3。

所以 $L\left(\begin{pmatrix}1 \\ 2 \\ 0\end{pmatrix}, \begin{pmatrix}0 \\ 1 \\ 2\end{pmatrix}\right)$ 的正交补空间为 $L\left(\begin{pmatrix}4 \\ -2 \\ 1\end{pmatrix}\right)$。

（2）¶

求向量 $$ \begin{pmatrix} 1 \ 1 \ 1 \end{pmatrix} $$ 投影到$\mathbb{R}^3$的一维子空间 $$ \text{span}\left{ \begin{pmatrix} 1 \ -1 \ 1 \end{pmatrix} \right} $$ 的正交投影。

解：

首先求得投影矩阵 $$ P_{\pi} = \frac{1}{3} \begin{pmatrix} 1 & -1 & 1 \ -1 & 1 & -1 \ 1 & -1 & 1 \end{pmatrix} $$

向量 $(1,1,1)^T$ 投影到一维子空间 $ \text{span} { (1, -1, 1)^T }$ 的正交投影为

\[ P_{\pi} \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix} = \frac{1}{3} \begin{pmatrix} 1 & -1 & 1 \\ -1 & 1 & -1 \\ 1 & -1 & 1 \end{pmatrix} \begin{pmatrix} 1 \\ 1 \\ 1 \end{pmatrix} = \frac{1}{3} \begin{pmatrix} 1 \\ -1 \\ 1 \end{pmatrix} \]

习题6¶

矩阵$A$的诱导范数也可理解为 $x$ 在单位范数球上运动时 $\|Ax\|_p$ 的最大值，而对于某些矩阵，$x$ 的巨大变化只能引起 $Ax$ 很小的变化（旋转而非放缩）。反之，对于线性方程组$Ax = b$，$b$（或 $A$）的微小变化会带来解 $x$ 的巨大变化。这样的矩阵$A$（及线性方程组）称作病态的。如

$A=\begin{pmatrix} 1 & 1 \\ 1 & 1.0001 \end{pmatrix}$ $$ \begin{pmatrix} 1 & 1 \ 1 & 1.0001 \end{pmatrix} \begin{pmatrix} x_1 \ x_2 \end{pmatrix} = \begin{pmatrix} 2 \ 2 \end{pmatrix} \Rightarrow \begin{pmatrix} x_1 \ x_2 \end{pmatrix} = \begin{pmatrix} 2 \ 0 \end{pmatrix} $$

\[ \begin{pmatrix} 1 & 1 \\ 1 & 1.0001 \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = \begin{pmatrix} 2 \\ 2.0001 \end{pmatrix} \Rightarrow \begin{pmatrix} x_1 \\ x_2 \end{pmatrix} = \begin{pmatrix} 1 \\ 1 \end{pmatrix} \]

方程组解 $x$ 的变化程度是 $b$ 变化程度的 10000 倍，因此称矩阵 A 是病态的。

对线性方程组 $Ax = b$，设 $A$ 是固定的，$b$ 有微小的扰动 $δb$，新方程组的解为 $x + δx$，即 $A(x + δx) = b + δb$

$Ax = b \Rightarrow | A | \space | x | \geq | b | $

$A \delta x = \delta b, \delta x = A^{-1} \delta b \Rightarrow | \delta x | = | A^{-1} \delta b | \leq | A^{-1} | | \delta b | $

用上面两个公式证明：$\frac{\| \delta x \|}{\| x \|} \leq \| A^{-1} \| \| A \| \frac{\| \delta b \|}{\| b \|}$

证明：

$\| A^{-1} \delta b \| \leq \| A^{-1} \| \| \delta b \|$

$| b | \leq | A | \space | x | $

由非负性，两个不等式两边相乘可得：

$\| A^{-1} \delta b \| \space \| b \| \leq \| A^{-1} \| \| \delta b \|\| A \| \space \| x \|$

若$\| b \| \not=0,\| x \| \not=0$，可进一步得$\frac{\| \delta x \|}{\| x \|} \leq \| A^{-1} \| \| A \| \frac{\| \delta b \|}{\| b \|}$ 原式得证。

【以下为补充讲解】

评估矩阵输入误差的敏感性指标为 $$ k(A) = |A| |A^{-1}| \quad (\text{又称条件数}). $$

以二维向量为例，$A = (a_1, a_2)$ 对应的变换 $A x$ 可以把 $x = (1, 0), (0, 1)$ 的基换成了 $a_1, a_2$ 的基。表示，而这个变换又可以拆分为旋转、放缩和投影三种变换（通过之后会学习到的奇异值分解）。

对于 $A = \begin{pmatrix} 1 & 1 \\ 1 & 1 \end{pmatrix}$ 这样的奇异阵，由于 $(1, 1)$ 与 $(1, 1)$ 方向相同，所以 $Ax$ 只能在一个方向移动（没有旋转），同时也可注意到最小特征值为 0（由于 $A$ 是对称方阵，特征向量两两正交，故特征值与奇异值相等）。 $$ A' = \begin{pmatrix} 1 & 1 \ 1 & 1.0001 \end{pmatrix} $$ 只是在上述线上的基上进行很小的变换，所以基的夹角很小，即使 $x$ 变化很大，也只能引起 $Ax$ 很小的变化。同时也可注意到，最小特征值从 0 变为约 0.00005。实际上，在 2 范数下，条件数等于最大与最小奇异值的比。 $$ |A|2 = \sigma(A)

\ |A^{-1}|2 = \sigma(A)}(A^{-1})=1/\sigma_{\min

\ k(A) = |A|2 |A^{-1}|_2 = \frac{\sigma $$ 其中，}(A)}{\sigma_{\min}(A)$\sigma_{\max}(A)$ 为矩阵 $A$ 的最大奇异值，$\sigma_{\min}(A)$ 为最小奇异值。

特殊地，对于对称方阵，特征值与奇异值相等，条件数又可表示为

$k(A) = \frac{\lambda_{\max}(A)}{\lambda_{\min}(A)}$

其中，$\lambda_{\max}(A)$ 为矩阵 $A$ 的最大特征值，$\lambda_{\min}(A)$ 为最小特征值。

习题7¶

证明：正交矩阵和范数有关的性质：如果矩阵 $U \in \mathbb{R}^{m \times m}$是正交矩阵，$V \in \mathbb{R}^{n \times n} $是正交矩阵，$M \in \mathbb{R}^{m \times n}, \mathbf{x} \in \mathbb{R}^m$，则

(1) $\| U \|_2 = 1, \| U \|_F = \sqrt{m}$

(2) $\| U\mathbf{x} \|_2 = \| \mathbf{x} \|_2$

(3) $\| UMV \|_2 = \| M \|_2, \| UMV \|_F = \| M \|_F$

证明：

(1)因为 $U^T U = I$，$\| U \|_2=\sqrt{\lambda_{max}(U^TU)}=1$

$||\mathbf{U}||_F=\sqrt{tr(U^TU)}=\sqrt{m}$

(2)$U\mathbf{x}$是一个向量

$\|U\mathbf{x}\|_2 = \sqrt{\mathbf{x}^T U^T U \mathbf{x}} = \sqrt{\mathbf{x}^T I \mathbf{x}} =\|\mathbf{x}\|_2$；

(3)$|UMV|2 = \sqrt{\lambda $，由于 }(V^T M^T U^T U M V)} = \sqrt{\lambda_{max}(V^T M^T M V)$V$ 是正交矩阵，故 $V^T M^T M V$ 与 $M^T M$ 具有相同的特征值，因此 $\sqrt{\lambda_{max}(V^T M^T M V)} = \sqrt{\lambda_{max}(M^T M )}$；同理易得 $ |UMV|_F=| M |_F $。

习题8¶

矩阵的范数主要包括三种主要类型：诱导范数、元素形式范数和 Schatten 范数。诱导范数又称矩阵空间上的算子范数（operator norm），常用的诱导范数为 $p$ 范数，定义如下：

\[ \| A \|_p = \sup_{\| x \|_p \not= 0} \frac{\| Ax \|_p}{\| x \|_p} = \sup_{\| x \|_p = 1} \| Ax \|_p \]

（1）¶

设 $A = (a_{ij}) \in \mathbb{R}^{m \times n}$，证明 1范数为列和范数，无穷范数为行和范数： $$ | A |\infty = \max|, | A |} \sum_{j=1}^{n} |a_{ij1 = \max| $$} \sum_{i=1}^{m} |a_{ij

证明：

\[ \begin{aligned} &A=\left(a_1, \ldots, a_{n}\right)\\ &\left\|A x\|_{1}=\right\| \sum_{i} a_{i} x_{i} \|_{1}\\ &\leqslant \sum_{i}\left\|a_{i} x_{i}\right\|_{1}\\ &=\sum_{i}\|x_{i}\|\|a_{i}\|_{1}\\ &\leqslant\left(\max \left\|a_{i}\right\|_{1}\right)\left(\sum_{i}\left|x_{i}\right|\right)\\ &=\max _{1 \leq j \leq n}\sum_{i=1}^{m}\left|a_{i j}\right|\|x\|_{1}\\ &\|A x\|_{\infty}=\max _{i}\left|\sum_{j} a_{i j} x_{j}\right|\\ &\left|\sum_{j} a_{i j} x_{j}\right| \leq \sum_{j}\left|a_{i j} x_{j}\right|\\ &\leq \sum_{j}\left|a_{i j}\right| \max _{j}\left|x_{j}\right|\\ &|| A x||_{\infty} \leqslant \max_{1\leq i \leq m} \sum_{j = 1}^{n}\left|a_{i j}\right|\| x \|_{\infty} \end{aligned} \]

（2）¶

元素形式范数即矩阵按列排成向量，然后采用向量范数的定义得到的矩阵范数，一般称 $l_p$ 范数。

\[ l_p: \| A \|_{m_p} = \left( \sum_{i,j} |a_{ij}|^p \right)^{\frac{1}{p}} \]

例如 $l_1$ 范数：

\[ l_1: \| A \|_{m_1} = \sum_{i,j} |a_{ij}| \]

试比较 $l_1$ 范数与1范数和无穷范数的大小关系。(不必严格证明)

解：

以$l_1$范数与1范数，无穷范数为例，有 $$\|X\|_{1} \leqslant\|X\|_{1}(l1) \leqslant n\|X\|_{1}$$ $$\|X\|_{\infty} \leqslant\|X\|_{1}(l1) \leqslant m\|X\|_{\infty}$$

习题9¶

假设 $P \in \mathbb{R}^{n \times n} \setminus \{0\}$ 是一个投影矩阵。

(i) 证明 $Py = y \ ,\forall y \in \mathcal{Col}(P)$

$Px - x \in \mathcal{Null}(P), \ \forall x \in \mathbb{R}^{n}$

（零空间 $\mathcal{Null}(P)$ ；列空间 $\mathcal{Col}(P)$）

(ii) 证明 $P$ 的特征值 $\lambda \in \Lambda(P) \subset \{0, 1\}$。假设 $\mathcal{Col}(P) = \text{span}(u_1, ..., u_r), \mathcal{Null}(P) = \text{span}(v_{r+1}, ..., v_n)$，试找到 $P$ 的特征分解 $P = XDX^{-1}$ 并证明 $\text{tr}(P) = \text{rank}(P)$。（提示：利用 (i) 结论。）

(iii) 证明当 $P \neq I_n$ 时，$\text{det}(P) = 0$。

(iv) 证明当 $P$ 是正交投影矩阵（$P^2 = P = P^T$）时，$I_n - 2P$ 是正交矩阵。

(v) 假设 $A \in \mathbb{R}^{n \times m}, m \leq n$，$\text{rank}(A) = m,P = A(A^T A)^{-1}A^T$，证明 $P$ 是正交投影矩阵，$\text{rank}(P) = m$。（提示：利用 (ii) 结论。）

证明：

(i) $\forall \ y \in \mathcal{Col}(P)$ 即对$x \in \mathbb{R}^n$ , $y=P x$ , $P y=P^2 x=P x=y$. $\forall x \in \mathbb{R}^n$, $P(P x-x)=P^2 x-P x=P x-P x=0$. (ii) 对 $\lambda \in \Lambda(P)$,$x \in \mathbb{R}^n \backslash\{0\}$, 有 $P x=\lambda x$. 由于 $P=P^2$, $\lambda x=P x=P(P x)=P(\lambda x)=\lambda P x=\lambda^2 x$. 因为 $x \neq \mathbf0 \in \mathbb{R}^n$, 故 $\lambda=\lambda^2$, $\lambda \in\{0,1\}$. 因此 $\Lambda(P) \subseteq\{0,1\}$. 由(i)可知，$\forall i = 1,...,r,u_i\in \mathcal{Col}(P),P u_i=u_i.\forall j = r+1,...,n,v_j\in \mathcal{Null}(P),P v_j=0.$ 故令 $X:=\left(u_1|\cdots| u_r\left|v_{r+1}\right| \cdots \mid v_n\right) \in \mathbb{R}^{n \times n}$ ,$D:=$ $\operatorname{diag}_{n \times n}(\underbrace{1, \ldots, 1}_{r \text { times }}, 0 \ldots, 0) \in \mathbb{R}^{n \times n}$，此时$P=X D X^{-1}$ （注：也可理解为SVD(后续课程会讲)，即$P=U D V^\mathrm{T},U\in \mathcal{Col}(P),V\in \mathcal{Null}(P)$） $\operatorname{tr}(P)=\operatorname{tr}\left(X D X^{-1}\right)=\operatorname{tr}(D)=r$. (iii) 由于$P$是投影矩阵，$P^2=P $ 可得$P(P-I_n)=0$ 两边取行列式可得

$|P| \space |P-I_n|=0 $

若$|P-I_n| \not= 0$，则$|P|=0,det(P)=0$

若$|P-I_n| = 0$，则$rank(P)<n$，由(ii)中结论可得 $P = XDX^{-1},|D|=0$

则$|P|=|X|\space |D| \space |X^{-1}|=|X| · 0 · |X^{-1}|=0$

综上，$det(P)=0$

还可以用反证法： $\operatorname{det}(P) \neq 0 \Longrightarrow P=I_n$. 由于 $\operatorname{det}(P) \neq 0$, $P$ 可逆. 故由 $P^2=P$ ,得 $P^{-1} P^2=P^{-1} P$, $P=I_n$. (iv) 由于P是正交投影矩阵, $P^2=P=P^{\mathrm{T}}$. 令 $Q:=I_n-2 P$ ,$Q^{\mathrm{T}}=I_n-2 P^{\mathrm{T}}=Q$ , $Q^2=I_n-4 P+4 P^2=I_n$. 因此, $Q^{\mathrm{T}} Q=Q Q^{\mathrm{T}}=I_n$. (v)$P^2=A\left(A^{\mathrm{T}} A\right)^{-1} A^{\mathrm{T}} A\left(A^{\mathrm{T}} A\right)^{-1} A^{\mathrm{T}}=A\left(A^{\mathrm{T}} A\right)^{-1} A^{\mathrm{T}}=P$

$P^{\mathrm{T}}=$ $A\left(\left(A^{\mathrm{T}} A\right)^{-1}\right)^{\mathrm{T}} A^{\mathrm{T}}=A\left(\left(A^{\mathrm{T}} A\right)^{\mathrm{T}}\right)^{-1} A^{\mathrm{T}}=A\left(A^{\mathrm{T}} A\right)^{-1} A^{\mathrm{T}}=P$. 由 (ii), $\operatorname{rank}(P)=\operatorname{tr}(P)=\operatorname{tr}(A \left(A^{\mathrm{T}} A\right)^{-1} A^{\mathrm{T}})=\operatorname{tr}(\left(A^{\mathrm{T}} A\right)^{-1} A^{\mathrm{T}} A)=\operatorname{tr}(I_m)=m$.

习题10¶

假设 $M, P \in \mathbb{R}^{n \times n}$ 为对称阵，$P$ 为正交阵，

\[ A = \begin{pmatrix} M & PM \\ MP & PMP \end{pmatrix} \in \mathbb{R}^{2n \times 2n} \]

(i) 证明 $A^T = A$。

(ii) 假设 $U \in \mathbb{R}^{m \times m}$是正交矩阵，$ V \in \mathbb{R}^{n \times n}$ 是正交矩阵，$D \in \mathbb{R}^{m \times n}$，证明 $\| UDV \|_2 = \| D \|_2$，$\| UDV \|_F = \| D \|_F$。

(iii) 证明 $\| A \|_F = 2\| M \|_F$。$\| A \|_2 \leq 2\| M \|_2$。（提示：将 $A$ 分解，并利用 (ii) 结论。）

(iv) 假设 $n = 4, M = \text{diag}_{4 \times 4}(-2, 1, 0, 0), P = (e_4 | e_3 | e_2 | e_1)$。证明 $\| A \|_p = 2 \ ,\forall p \in [1, \infty)$。

(i) $$ A^{\mathrm{T}}=\left(\begin{array}{c|c}

M^{\mathrm{T}} & (M P)^{\mathrm{T}} \

\hline(P M)^{\mathrm{T}} & (P M P)^{\mathrm{T}}

\end{array}\right)= \

\left(\begin{array}{c|c}

M^{\mathrm{T}} & P^{\mathrm{T}} M^{\mathrm{T}} \

\hline M^{\mathrm{T}} P^{\mathrm{T}} & P^{\mathrm{T}} M^{\mathrm{T}} P^{\mathrm{T}}

\end{array}\right)=\left(\begin{array}{c|c}

M & P M \

\hline M P & P M P

\end{array}\right)=A $$ (ii)即证明2范数与F范数满足正交不变性

对2范数，即证$\|U D \|_2=\|D\|_2,\|D V\|_2=\|D\|_2$ $$ \begin{aligned}

&\left|U D \right|2=\sqrt{\lambda=\left| D \right|_2\}\left(D^{\mathrm{T}} U^{\mathrm{T}} U D\right)}=\sqrt{\lambda_{\max }\left(D^{\mathrm{T}} D\right)

&\text{又因为} \left|Vx \right|_2=\sqrt{x^{\mathrm{T}}V^{\mathrm{T}} Vx}=\sqrt{x^{\mathrm{T}}x} =\left| x \right|_2\

&|D V|2=\sup {|x|2=1}\left|D V x\right|_2=\sup |D V x|_2=|D|_2\

\end{aligned} $$ 对F范数，

\[\|UDV\| _F=\sqrt{\operatorname{tr}\left(V^{\mathrm{T}} D^{\mathrm{T}} U^{\mathrm{T}} UDV\right)}=\sqrt{\operatorname{tr}\left(V V^{\mathrm{T}} D^{\mathrm{T}} D\right)}=\sqrt{\operatorname{tr}\left(V^{\mathrm{T}} V D^{\mathrm{T}} D\right)}\]

$=\sqrt{\operatorname{tr}\left(D^{\mathrm{T}} D\right)}=\|D\|_ F$

(iii)

$$\|A\|_F^2=\|M\|_F^2+\|M P\|_F^2+\|P M\|_F^2+\|P M P\|_F^2=4\|M\|_F^2$$ 或 $$ \begin{aligned}

&\left|A\right|_F=\left|\left(\begin{array}{ll}

M & M \

M & M

\end{array}\right)\right|_F=\left|\left(\begin{array}{l}

I \

I

\end{array}\right) M\left(\begin{array}{ll}

I & I

\end{array}\right) \right|_F\

&=\sqrt{ \operatorname{tr}\left(\left(\begin{array}{l}

I \

I

\end{array}\right) M\left(\begin{array}{ll}

I & I

\end{array}\right)\left(\begin{array}{l}

I \

I

\end{array}\right) M\left(\begin{array}{ll}

I & I

\end{array}\right)\right)}\

&=\sqrt{2 \operatorname{tr}\left(M\left(\begin{array}{ll}

I & I

\end{array}\right)\left(\begin{array}{l}

I \

I

\end{array}\right) M\right)}\

&=2 \sqrt{\operatorname{tr}\left(M^2\right)}=2|M|_F

\end{aligned} $$

设 $$ B = \begin{pmatrix} M & M \ M & M \end{pmatrix}，w = \begin{pmatrix} x \ y \end{pmatrix}, $$

\[ \|A\|_2 = \|B\|_2 = \sup_{\|w\|_2 \neq 0} \frac{\|Bw\|_2}{\|w\|_2} = \sup_{\|w\|_2 = 1} \|Bw\|_2 \]

\[ \left\| B \begin{pmatrix} x \\ y \end{pmatrix} \right\|_2^2 = \left\| \begin{pmatrix} Mx + My \\ Mx + My \end{pmatrix} \right\|_2^2 = 2 \|Mx + My\|_2^2 \]

\[ \leq 2\left( \|Mx\|_2 + \|My\|_2 \right)^2 \]

\[ \leq 4\|Mx\|_2^2 + 4\|My\|_2^2 \]

\[ = 4\|M\|_2^2 \|x\|_2^2 + 4\|M\|_2^2 \|y\|_2^2 (\text{相容性}) \]

\[ = 4\|M\|_2^2 \|w\|_2^2 = 4\|M\|_2^2 \]

因此

\[ \|A\|_2 = \sup_{\|w\|_2=1} \|Bw\|_2 = 2\|M\|_2 \]

或 $$ \begin{aligned}

|A w|_2^2 &=\left|\left(\begin{array}{l}

M x+P M y \

M P x+P M P y

\end{array}\right)\right|_2^2 \

&=|M x+P M y|_2^2+|M P x+P M P y|_2^2 \

& \leq\left(|M x|_2+|P M y|_2\right)^2+\left(|M P x|_2+|P M P y|_2\right)^2 \

& \leq 2|M x|_2^2+2|P M y|_2^2+2|M P x|_2^2+2|P M P y|_2^2 \

& \leq 2|M|_2^2|x|_2^2+2|P M|_2^2|y|_2^2+2|M P|_2^2|x|_2^2+2|P M P|_2^2|y|_2^2 \

&=2|M|_2^2|x|_2^2+2|M|_2^2|y|_2^2+2|M|_2^2|x|_2^2+2|M|_2^2|y|_2^2 \

&=4|M|_2^2\left(|x|_2^2+|y|_2^2\right) \

&=4|M|_2^2|w|_2^2

\end{aligned} $$

当然还有下面这个巧妙的证法： $$ A = \begin{pmatrix} M & PM \ MP & PMP \end{pmatrix}=\begin{pmatrix} M & O \ O & PMP \end{pmatrix} + \begin{pmatrix} O & PM \ MP & O \end{pmatrix} $$ 取 $$ A_1=\begin{pmatrix} M & O \ O & PMP \end{pmatrix},A_2=\begin{pmatrix} O & PM \ MP & O \end{pmatrix} $$ 根据矩阵范数的定义，由于范数一定满足三角不等式，所以：

$||A||_2\leq ||A_1||_2+||A_2||_2$ (式1) $$ A_1^TA_1=\begin{pmatrix} M^2 & O \ O & PM^2P \end{pmatrix} $$ $A_1^TA_1$的特征多项式为$| \lambda E- A_1^TA_1|=0$，可得$|\lambda E-M^2| \space |\lambda E-PM^2P|=0$ (式2)

对于$|\lambda E-M^2|=0$ 求的是$M^2$的特征值，且解非负

对于$|\lambda E-PM^2P|=0$ 求的是$PM^2P$的特征值由于$P$为正交矩阵，$P^T=P^{-1}$，$PM^2P=P^{T}M^2P=P^{-1}M^2P$，$PM^2P \sim M^2$ 故该多项式求的也是$M^2$的特征值

经过上述分析，(式2)的解集包含于$M^2$的特征值，即$\lambda_{max}(A_1^TA_1)=\lambda_{max}(M^2)=\lambda_{max}(M^TM)$ 即$||A_1||_2=||M||_2$ $$ A_2^TA_2=\begin{pmatrix} PM^2P & O \ O & M^2 \end{pmatrix} $$ 同理可得$||A_2||_2=||M||_2$

再结合(式1)，可得$\| A \|_2 \leq 2\| M \|_2$

(iv) $$ M=\left(\begin{array}{cccc}

-2 & & & \

& 1 & & \

& & 0 & \

& & & 0

\end{array}\right)\ \

P=\left(\begin{array}{cccc}

& & & 1 \

& &1 & \

& 1& & \

1& & &

\end{array}\right)\ \

A=\left(\begin{array}{cccc|cccc}

-2 & & & & & & & 0 \

& 1 & & & & & 0 & \

& & 0 & & & 1 & & \

& & & 0 & -2 & & & \

\hline & & & -2 & 0 & & & \

& & 1 & & & 0 & & \

& 0 & & & & & 1 & \

0 & & & & & & & -2

\end{array}\right) $$

$$ \begin{aligned}

|A x|_p^p &=\left|\left(-2 x_1, x_2, x_6,-2 x_5,-2 x_4, x_3, x_7,-2 x_8\right)^{\mathrm{T}}\right|_p^p \

&=2^p|x|_p^p .

\end{aligned} $$ 因此$\|A\|_p=\sup _{\|x\|_p=1}\|A x\|_p=2$ (即如果一个变换只将某些维度倍乘并交换顺序，不作维度间相加的操作，那矩阵范数即最大拉伸倍数)

阅读题目不计入分数，仅供学有余力的同学参考。

阅读题目1¶

由$\|A\|_{p} =\sup _{\|x\|_{p}\neq 0} \frac{\|A x\|_{p}}{\|x\|_{p}}$，矩阵A的诱导范数可理解为线性变换$Ax$对向量$x$的最大“拉长倍数”，由$\|A\|_{p} =\sup _{\|x\|_{p}=1}\|A x\|_{p}$，矩阵A的诱导范数也可理解为$x$在单位范数球上运动时$\|A x\|_{p}$的最大值。以下情形可便于理解诱导范数

诱导范数几何意义

图：诱导范数例（p=2）

诱导范数例

图：诱导范数例（p=1）

例:上图为$A=\left(\begin{array}{ll}1 & 1 \\ 1 & 1\end{array}\right),p(A)=1,p=2$时的情形，在$x=(\sqrt{2}/2,\sqrt{2}/2)$时$\|A x\|_{2}$取到最大值2 例:下图绿线为$A=\left(\begin{array}{ll}2 & 0 \\ 0 & 2\end{array}\right),p=1$时的情形，在$x=(1,0)$时$\|A x\|_{1}$取到最大值2 例:下图橙线为$A=\left(\begin{array}{ll}2 & 0 \\ 1 & 2\end{array}\right),p=1$时的情形，在$x=(1,0)$时$\|A x\|_{1}$取到最大值3 (1)试证明$$||A||_{2}=\sigma_{max}=\sqrt{\lambda\left(A^{\top} A\right)}$$,其中$\sigma_{max}$为谱范数，即矩阵A的最大奇异值，$\lambda\left(A^{\top} A\right)$表示$A^{\top} A$的最大特征值。证:即证明对于矩阵 $A_{m \times n}$, 对任意向量 $x$, 在矩阵 $A$ 的变换（即 $Ax$ ）后, 其长度不大于 $\sigma_{max}\| x\|_{2}$, 即 $\|A x\|_{2} \leq \sigma_{max}\| x\|_{2}$ 。$A^{\top} A$是实对称阵，不同特征值对应的特征向量两两正交。不妨令$B=A^{\top} A$,特征向量矩阵为$\lambda =diag(\lambda_1,...,\lambda_n)=\left(\begin{array}{lll} \lambda_{1} & & \\ & \ddots & \\ & & \lambda_{n} \end{array}\right)$,$p_1,...,p_n$为B的一组标准正交特征向量，则$P=(p_1,...,p_n)$为正交矩阵,故 $$BP=P\lambda \Leftrightarrow B=P\lambda P^{-1} \Leftrightarrow B=P\lambda P^{\top} $$(称$\lambda$合同于$B$) 假设对一个向量 $x$, 在矩阵 $A$ 的变换（即 $Ax$ ）后得到$y$,即满足$y=Ax$。则 $$\| y\|_{2}^2=y^{\top}y=(Ax)^{\top}(Ax)=x^{\top}A^{\top}Ax=x^{\top}B x=x^{\top}P\lambda P^{\top} x=(P^{\top} x)^{\top}\lambda P^{\top} x$$

对于二次型，可以看作是一个二次齐次多项式的图形，而正交矩阵P的变换，可以保证变换图形的形状和大小不变，仅仅做了位移、旋转或翻转的变换，类似把物体从一个地方移到另一个地方。（可以想象一个三维坐标系，在坐标系上的点构成的图形通过一个非正交的基表示，现坐标系换了一组标准正交基P，用这组基变换图形不过是移动(掰正)了图形的位置。记$z=P^{\top} x$，所以$z$不过是一个与x一样的（同范数的）向量，只是换了位置，而$\lambda =diag(\lambda_1,...,\lambda_n)$则进行了掰正位置后的放缩。因而 $$ \begin{aligned} |y|^{2} &=z^{T}\left(\begin{array}{ccc} \lambda_{1} & & \ & \ddots & \ & & \lambda_{n} \end{array}\right) z=\sum_{i} \lambda_{i} z_{i}^{2} \ &=\sum_{i}\left(\sqrt{\lambda_{i}} z_{i}\right)^{2} \leq \sum_{i}\left(\max {j}\left(\sqrt{\lambda \ &=\max \left(\sqrt{\lambda_{j}}\right)^{2} \sum_{i} z_{i}^{2}=\max \left(\lambda_{j}\right)|z|^{2}==\max \left(\lambda_{j}\right)|x|^{2} \end{aligned} $$ 当且仅当除 }}\right) z_{i}\right)^{2$z_{o p t \max_{j} (\lambda_ j)}$ 以外的其他元素均等于 0 时, 该不等式的等号成立。即 $\|A x\|_{2} \leq \sigma_{max}\| x\|_{2}$ ，证毕 (2)元素形式下矩阵的$l_{2}$范数称为Frobenius范数，即 $$l_{2}:\|A\|_{F} =\sqrt{\sum_{i, j}\left|a_{i j}\right|^{2}}$$ 试比较$\|A\|_{2}$与$\|A\|_{F}$的大小答:$\|A\|_{2}\leq \|A\|_{F}$

阅读题目2¶

将一个带有交叉项的二次型转变成没有交叉项的二次型等同于将对称矩阵合同变换为一个对角矩阵。它的几何意义，可以看作是将二次方程所对应的几何图形标准化的过程。例如：在平面上，即椭圆、抛物线和双曲线等二次曲线的标准化过程；在空间上，即二次曲面的标准化过程。下面通过主轴定理及其几何意义窥见一斑。

标准二次曲线

图1：对角矩阵时对应标准二次曲线

主轴定理

令$A$是任意一个$n\times n$的对称矩阵，那么存在一个正交变换$x=Py$，使得二次型$x^T A x$转变为$y^T D y$，其中$D=P^T A P$是对角矩阵。定理中$P$的列称为二次型$x^T Ax$的主轴。向量 $y$ 是向量 $x$ 在这些主轴下的坐标。

主轴定理的几何意义

假设$Q(x)=x^T Ax$，其中$x\in\R^2$，$A$是$2\times 2$可逆对称矩阵，$c$是常数。可以证明$\R^2$中所有满足$x^T A x=c$的 $x$ 的集合可能为椭圆（圆）、双曲线、两相交直线、点或者空集。如果$A$是对角矩阵，那么二次曲线将是标准的二次曲线，如图1所示。如果$A$不是对角矩阵，那么二次曲线将是非标准的二次曲线。图2是二次方程为$5x_1^2-4x_1x_2+5x_2^2=48$的椭圆曲线。显然，它不是一个标准的二次曲线。下面，我们通过寻找该椭圆的主轴将其转化为标准形式，从几何的角度验证主轴定理。

非标准椭圆

图2：非对角矩阵对应费标准二次曲线

易求得该椭圆方程对应二次型的矩阵表示为 $$A=\begin{pmatrix}5&-2\\-2&5\end{pmatrix}.$$ 可计算出其特征值为3和7，对应的特征向量分别为 $$v_1=\begin{pmatrix}1/\sqrt{2}\\1/\sqrt{2}\end{pmatrix}, v_2=\begin{pmatrix}-1/\sqrt{2}\\1/\sqrt{2}\end{pmatrix}.$$

令$P=[v_1 ~v_2]$，则从图形中可以看出$P$的列向量，正好对应该椭圆主轴所在的方向。现将$x=Py$代入二次型，可得 $$y^T D y = 3y_1^2+7y_2^2.$$ 即可得到椭圆的标准方程形式。