2021级答案¶

《数据科学与工程数学基础》笔试试卷　　2023.2¶

学院：数据科学与工程学院　　考试形式：闭卷　　所需时间：120分钟

考生姓名：__　　学号：__　　专业：____　　任课教师：黄定江

题目	一	二	三	四	五	六	七	八	总分
满分	13	12	12	13	13	12	13	12	100
得分
阅卷人

一、（13分）

假设 $Q \in \mathbb{R}^{n \times n} \backslash\{0\}$ 是一个投影矩阵。

(1) 证明：$Q z=z, \ \forall z \in \mathcal{R}(Q)$以及$Q y-y \in \mathcal{N}(Q), \ \forall y \in \mathbb{R}^n$。

(2) 证明：$Q$的特征值$\lambda \in \Lambda(Q) \subseteq\{0,1\}$。

(3) 假设$\mathcal{R}(Q)=\operatorname{span}\left(u_1, \ldots, u_r\right)$ ， $\mathcal{N}(Q)=\operatorname{span}\left(v_{r+1}, \ldots, v_n\right)$ 这里$r$表示投影矩阵的秩，请据此写出$Q$的特征分解 $Q=X D X^{-1}$的具体形式。

(4) 证明：当 $Q \neq I_n$， $\operatorname{det}(Q)=0$。

解：

(1) $\forall \ y \in \mathcal{R}(Q)$必存在$x \in \mathbb{R}^n$，使得$y=Q x$ 成立。因此，$Q y=Q^2 x=Q x=y$。另外， $\forall x \in \mathbb{R}^n$，$Q(Q x-x)=Q^2 x-Q x=Q x-Q x=0$。 （3分）

(2) 对 $\lambda \in \Lambda(Q)$，$x \in \mathbb{R}^n \backslash\{0\}$，有 $Q x=\lambda x$. 由于 $Q=Q^2$, $\lambda x=Q x=Q(Q x)=Q(\lambda x)=\lambda Q x=\lambda^2 x$。因为 $x \neq 0 \in \mathbb{R}^n$，故 $\lambda=\lambda^2$，$\lambda \in\{0, 1\}$。因此 $\Lambda(Q) \subseteq\{0,1\}$。 （3分）

(3) 由(1)可知，$\forall i = 1,...,r, u_i\in \mathcal{R}(Q), Q u_i=u_i$，以及$\forall j = r+1,...,n,v_j\in \mathcal{N}(Q),Q v_j=0$。故令 $$X:=\left(u_1|\cdots| u_r\left|v_{r+1}\right| \cdots \mid v_n\right) \in \mathbb{R}^{n \times n},$$ $$D:=\operatorname{diag}_{n \times n}(\underbrace{1, \ldots, 1}_{r \text { times }}, 0 \ldots, 0) \in \mathbb{R}^{n \times n},$$ 此时$Q=X D X^{-1}$。 （4分）

(4) 反证$\operatorname{det}(Q) \neq 0 \Longrightarrow Q=I_n$。由于 $\operatorname{det}(Q) \neq 0$，故$Q$ 可逆。故由 $Q^2=Q$，得 $Q^{-1} Q^2=Q^{-1} Q$，即$Q=I_n$。 （3分）

二、（12分）

已知矩阵$$\boldsymbol{M} = \begin{pmatrix} 0&-3&3\\0&0&4\\2&1&1 \end{pmatrix}$$

(1) 先求矩阵$\boldsymbol{M}$的QR分解，然后根据QR分解求解方程组$\boldsymbol{M} \boldsymbol{x} = \boldsymbol{b}$，其中$\boldsymbol{b}=[6, 4, 1]^{\mathrm{T}}$；

(2) 请根据你对LU分解、Cholesky分解和QR分解的理解，谈谈它们之间的联系与差异。

解：

（1）因为 $\boldsymbol{\alpha}_1=(0,0,2)^{\mathrm{T}}$, 记 $a_1=\left\|\alpha_1\right\|_2=2$, 令 $\quad \boldsymbol{w}_1=\frac{\alpha_1-a_1 e_1}{\left\|\alpha_1-a_1 e_1\right\|_2}=$ $\frac{1}{\sqrt{2}}(-1,0,1)^{\mathrm{T}}$, 则 $$ \boldsymbol{H}_1=I-2 \boldsymbol{w}_1 \boldsymbol{w}_1^H=\left(\begin{array}{ccc} 0 & 0 & 1 \ 0 & 1 & 0 \ 1 & 0 & 0 \end{array}\right) $$ 从而 $$ \boldsymbol{H}_1 \boldsymbol{M}=\left(\begin{array}{ccc} 2 & 1 & 1 \ 0 & 0 & 4 \ 0 & -3 & 3 \end{array}\right) $$ 记 $\boldsymbol{\beta}=(0,-3)^{\mathrm{T}}$, 则 $b_2=\left\|\boldsymbol{\beta}_2\right\|_2=3$, 令 $\boldsymbol{w}_2=\frac{\boldsymbol{\beta}_2-b_2 e_1}{\left\|\boldsymbol{\beta}_2-b_2 \boldsymbol{e}_1\right\|_2}=\frac{1}{\sqrt{2}}(-1,-1)^{\mathrm{T}}$ $$ \widetilde{\boldsymbol{H}}_2=\boldsymbol{I}-2 \boldsymbol{w}_2 \boldsymbol{w}_2^{\boldsymbol{H}}=\left(\begin{array}{cc} 0 & -1 \ -1 & 0 \end{array}\right) $$ 记 $$ \boldsymbol{H}_2=\left(\begin{array}{cc} 1 & 0^{\mathrm{T}} \ 0 & \widetilde{\boldsymbol{H}}_2 \end{array}\right)=\left(\begin{array}{ccc} 1 & 0 & 0 \ 0 & 0 & -1 \ 0 & -1 & 0 \end{array}\right) $$ 则 $$ \boldsymbol{H}_2\left(\boldsymbol{H}_1 \boldsymbol{M}\right)=\left(\begin{array}{ccc} 2 & 1 & 1 \ 0 & 3 & -3 \ 0 & 0 & -4 \end{array}\right)=\boldsymbol{R} $$ 易知 $\mathrm{Rx}=H_2 H_1 b=(1,-6,-4)^{\mathrm{T}}$, 故可求得 $ \mathrm{x}=(1 / 2, \quad-1, \quad 1)^{\mathrm{T}} $ （7分）

（2）（总体上，只要理解正确即可）这三种分解方式的联系在于将一个非三角矩阵转化为三角矩阵，这样便可以有效提高实际应用中一系列方程组求解的效率。它们区别在于LU分解和Cholesky分解是基于高斯消去法，分别适用于一般地可逆矩阵和对称矩阵，QR分解则是利用正交投影的方法，将向量分别投影到左边平面上的方式，从而达到对角化。 （5分）

三、（12分）

完成下列矩阵函数求梯度：

(1) 求行列式函数$f(\boldsymbol{X})=|\boldsymbol{X}^3|$的梯度矩阵，其中变量$\boldsymbol{X} \in \mathbb{R}^{n\times n} $非奇异；

(2) 求迹函数$f(\boldsymbol{X}) = \operatorname{Tr}(\boldsymbol{X}^{\mathrm{T}}\boldsymbol{X}^{-1}\boldsymbol{A})$的梯度矩阵，其中变量$\boldsymbol{X} \in \mathbb{R}^{n\times n} $非奇异。

解：

（1）因为$d|\boldsymbol{X}| =\operatorname{Tr}(|\boldsymbol{X}|\boldsymbol{X}^{-1}d\boldsymbol{X})$，因此 $$ \begin{aligned} d(|\boldsymbol{X}^{3}|)&= \operatorname{Tr}( \boldsymbol{X} \boldsymbol{X}^{-3} d\boldsymbol{X}^{3})\ &=\operatorname{Tr}(|\boldsymbol{X}^3| X^{-3} (d\boldsymbol{X} \cdot \boldsymbol{X}^2+\boldsymbol{X} d\boldsymbol{X} \cdot \boldsymbol{X} + \boldsymbol{X}^2d\boldsymbol{X}))\ &=\operatorname{Tr}(3|\boldsymbol{X}|^3 \boldsymbol{X}^{-1} d\boldsymbol{X}) \end{aligned} $$ 所以梯度矩阵$3|\boldsymbol{X}|^3 (\boldsymbol{X}^{-1})^{\mathrm{T}}$。 （6分）

（2）

\[ \begin{aligned} d\operatorname{Tr}(\boldsymbol{X}^{\mathrm{T}} \boldsymbol{X}^{-1} \boldsymbol{A}) &= \operatorname{Tr}(d(\boldsymbol{X}^{\mathrm{T}} \boldsymbol{X}^{-1} \boldsymbol{A}))\\ &= \operatorname{Tr}( d\boldsymbol{X}^{\mathrm{T}} \boldsymbol{X}^{-1}\boldsymbol{A} -\boldsymbol{X}^{\mathrm{T}} \boldsymbol{X}^{-1} d\boldsymbol{X} \boldsymbol{X}^{-1} \boldsymbol{A})\\ &= \operatorname{Tr}((\boldsymbol{A}^{\mathrm{T}} (\boldsymbol{X}^{-1})^{\mathrm{T}} -\boldsymbol{X}^{-1}\boldsymbol{A}\boldsymbol{X}^{\mathrm{T}} \boldsymbol{X}^{-1}) d\boldsymbol{X}) \end{aligned} \]

即

$$ \begin{aligned} \frac{\partial \operatorname{Tr}(\boldsymbol{X}^{\mathrm{T}} \boldsymbol{X}^{-1} \boldsymbol{A})}{\partial \boldsymbol{X}} = (\boldsymbol{A}^{\mathrm{T}} (\boldsymbol{X}^{-1})^{\mathrm{T}} -\boldsymbol{X}^{-1}\boldsymbol{A}\boldsymbol{X}^{\mathrm{T}} \boldsymbol{X}^{-1})^{\mathrm{T}} \end{aligned} \ $$ （6分）

四、（13分）

矩阵$$\boldsymbol{A} = \begin{pmatrix} 7/5&-1/5\\ 1/5&7/5\\ 0&0 \end{pmatrix}$$

(1) 计算矩阵 $\boldsymbol{A}$ 的SVD分解；

(2) 假设$\boldsymbol{M}$是任意一个非奇异$n \times d$的矩阵，已知其奇异值分解为$\boldsymbol{M} = \boldsymbol{U} \Sigma \boldsymbol{V}^{\mathrm{T}}$，其中$\boldsymbol{U} = [u_1, u_2, \cdots, u_n]$，$\Sigma = \operatorname{diag}(\lambda_1, \lambda_2, \cdots, \lambda_n)$，$\boldsymbol{V} = [v_1, v_2, \cdots, v_n]$。请分别写出矩阵$\boldsymbol{M}$的逆矩阵的SVD分解；

(3) 请写出(2)中$\boldsymbol{M}$的转置矩阵的SVD分解。

解：

（1）易计算 $$\boldsymbol{A}^{\mathrm{T}} \boldsymbol{A} =\begin{pmatrix} 2& 0\\ 0& 2\end{pmatrix}$$ 求得其特征值为$2,9$。对应的特征向量分别为$(1, 0)^{\mathrm{T}}, (0, 1)^{\mathrm{T}}$，因此， $$\boldsymbol{V} =\begin{pmatrix} 1& 0\\ 0& 1\end{pmatrix}$$ （3分）

由$\boldsymbol{A} \boldsymbol{V}$与$\boldsymbol{U}$的关系可直接计算出 $$\boldsymbol{U} =\begin{pmatrix} 7/5\sqrt{2}& -1/5\sqrt{2}& 0\\ 1/5\sqrt{2}& 7/5\sqrt{2} & 0\\ 0& 0 & 1 \end{pmatrix}$$ （3分）

（2）因为$\boldsymbol{M}$的SVD分解为 $$ \boldsymbol{M}=U \Sigma V^{\mathrm{T}}=\left(u_1|\cdots| u_n\right)\left[\operatorname{diag}{n \times n}\left(\lambda_1, \ldots, \lambda_n\right)\right]\left(v_1|\cdots| v_n\right)^{\mathrm{T}} $$ 其中 $U, V \in \mathbb{R}^{n \times n}$ 正交, $\lambda_1 \geq \lambda_2 \geq \cdots \geq \lambda_n \geq 0$。因为$\boldsymbol{M}$可逆，有 $\operatorname{rank}(\boldsymbol{M})=n$ , 故$\lambda_i>0$ , $\forall i \in\{1, \ldots, n\}$.又由 $\boldsymbol{M}=U \Sigma V^{\mathrm{T}}$ 有 $\boldsymbol{M} v_i=\lambda_i u_i$ $\forall i \in\{1, \ldots, n\}$ ，因此 $$\boldsymbol{M}^{-1} u_i=\boldsymbol{M}^{-1}\left(\frac{1}{\lambda_i} \boldsymbol{M} v_i\right)=\frac{1}{\lambda_i} v_i$$ 其中 $\frac{1}{\lambda_n} \geq \cdots \geq \frac{1}{\lambda_2} \geq \frac{1}{\lambda_1}>0$。综上 $$ \boldsymbol{M}^{-1}=\left(v_n|\cdots| v_2 \mid v_1\right)\left[\operatorname{diag}, $$ 整理可得 $$ \boldsymbol{M}^{-1}=(V P)\left(P \Sigma^{-1} P\right)(U P)^{\mathrm{T}}. $$ 记 }\left(\frac{1}{\lambda_n}, \ldots, \frac{1}{\lambda_2}, \frac{1}{\lambda_1}\right)\right]\left(u_n|\cdots| u_2 \mid u_1\right)^{\mathrm{T}$P:=\left(e_n|\cdots| e_2 \mid e_1\right) \in \mathbb{R}^{n \times n}$. (由于 $P P^{\mathrm{T}}=P^2=I_n$， $P$是正交阵，且$V P$, $U P$ 是正交阵)。 （5分）

（3）因为$\boldsymbol{M}$的SVD分解为 $$ \boldsymbol{M}=U \Sigma V^{\mathrm{T}} $$ 其中 $U, V \in \mathbb{R}^{n \times n}$ 正交。易得 $\boldsymbol{M}^{\mathrm{T}}=V \Sigma U^{\mathrm{T}}.$

显然$V$, $U$ 是正交阵。 （2分）

五、（13分）

已知矩阵$$\boldsymbol{M} = \begin{pmatrix} 2&0\\ -1&2\\ 0&3\\ \end{pmatrix}$$

(1) 计算矩阵 $\boldsymbol{M}$ 的 $1$ 范数和$\infty$范数；

(2) 计算矩阵 $\boldsymbol{M}$ 的 $F$ 范数和$2$范数。

(3) 试比较任意矩阵$\boldsymbol{A}$的 $F$ 范数和$2$范数的大小，并给出理由。

解：

（1） $$\|\boldsymbol{M}\|_1=\max\{2+\|-1\|,0+2+3\}=5$$ $$\|\boldsymbol{M}\|_{\infty}=\max\{2+\|0\|,\|-1\|+2, 0+3\}=3$$ （4分）

（2）$\boldsymbol{M}^{\mathrm{T}} \boldsymbol{M}=\begin{pmatrix}5&-2\\-2&13\end{pmatrix}$

$\lambda_{max}(\boldsymbol{M}^{\mathrm{T}} \boldsymbol{M})=9+2\sqrt{2}$

$\|\boldsymbol{M}\|_2=\sqrt{9+2\sqrt{2}}$

易求得 $\|\boldsymbol{M}\|_F=\sqrt{18}=3\sqrt{2}$ （5分）

（3）显然$F$范数大于$2$范数，因为$F$范数的平方是所有奇异值的平方之和，而$2$范数的平方是最大奇异值的平方，因此可知这一点成立。 （4分）

六、（12分）

求解以下问题：

(1) 证明: Gauss概率密度函数的累积分布函数 $$ \Phi(x)=\frac{1}{\sqrt{2\pi}}\int^{x}_{-\infty}e^{-u^{2}/2}du $$

是对数-凹函数. 即 $ \log(\Phi(x)) $ 是凹函数。

(2) 设总体 $X \sim E(\theta), X_{1}, X_{2}, \ldots, X_{n}$ 为来自总体 $X$ 的样本, $\theta$ 的先验分布为指数分布 $E(\lambda)$ ( $\lambda$ 已知), 求 $\theta$ 的最大后验估计。

解：

（1）由题意得, $$\Phi(x)=\frac{1}{\sqrt{2\pi}}\int^{x}_{-\infty}e^{-u^{2}/2}du $$ $$\Phi^{'}(x)=\frac{1}{\sqrt{2\pi}}e^{-x^{2}/2}$$ $$\Phi^{''}(x)=\frac{1}{\sqrt{2\pi}}e^{-x^{2}/2}(-x)$$ $$(\Phi^{'}(x))^{2}=\frac{1}{2\pi}e^{-x^{2}}$$ $$\Phi(x)\log\Phi^{''}(x) = \frac{1}{2\pi}\int^{x}_{-\infty}e^{-u^{2}/2}du \cdot e^{-x^{2}/2}(-x)$$ （3分）

当$x\geq 0$时, $(\Phi^{'}(x))^{2} \geq 0 \geq \Phi(x)\Phi^{''}(x)$.

当$x < 0$时, 由于$\frac{u^{2}}{2}$是凸函数, 则 $$\frac{u^{2}}{2} \geq \frac{x^{2}}{2} + (u-x)x\geq xu - \frac{x^{2}}{2}$$ 所以, $$\int^{x}_{-\infty}e^{-u^{2}/2}du \leq \int^{x}_{-\infty}e^{\frac{x^{2}}{2}- xu}du$$ $$= e^{\frac{x^{2}}{2}\cdot\frac{e^{-xu}}{-x}\big|_{u=-\infty}^{x}}$$ $$= e^{\frac{x^{2}}{2}}\cdot\frac{e^{-x^{2}}}{-x}$$ 因此$\Phi(x)\Phi^{''}(x) \leq \frac{1}{2\pi}e^{-x^{2}} = (\Phi^{'}(x))^{2}$, $\Phi(x)$是对数凹函数。 （3分）

（2）因为先验概率密度函数为: $$ \pi(\theta)=\left{\begin{array}{cc} \lambda e^{-\lambda \theta} & \theta>0 \ 0 & \theta \leq 0 \end{array}\right. $$ 样本 $\left(X_{1}, X_{2}, \ldots, X_{n}\right)$ 的联合概率密度为: $$ q(\mathbf{x} \mid \theta)=\prod_{n=2}^{n} f\left(x_{i} \mid \theta\right)=\left{\begin{array}{cc} \theta^{n} e^{-\theta \sum_{i=1}^{n} x_{i}} & x_{1}, x_{2}, \ldots, x_{n}>0 \ 0 & \text { 其它 } \end{array}\right. $$ 所以 $\theta$ 的后验分布密度 $$ \begin{gathered} h(\theta \mid \mathbf{x}) \propto \theta^{n} e^{-\left(\lambda+\sum_{i=1}^{n} x_{i}\right) \theta} \ \ln h(\theta \mid \mathbf{x})=n \ln \theta-\left(\lambda+\sum_{i=1}^{n} x_{i}\right) \theta+\ln c(\mathbf{x}) \ \frac{\partial \ln h(\theta \mid \mathbf{x})}{\partial \theta}=\frac{n}{\theta}-\left(\lambda+\sum_{i=1}^{n} x_{i}\right)=0 \end{gathered} $$ 求得 $\theta$ 的最大后验估计为 $\hat{\theta}=\frac{1}{\bar{x}+\lambda / n}$ 。当 $n \rightarrow \infty$ 时, $\hat{\theta} \rightarrow \frac{1}{\bar{x}}$, 与传统意义下的极大似然估计是一致的。 （6分）

七、（13分）

求解下述问题：

(1) 写出下述非线性规划的KKT条件，并求解 $$ \begin{aligned} \quad \texttt{maximize} \quad & f(x)=(x-4)^2 \ \texttt{suject to} \quad & 1\leq x \leq 5 \end{aligned} $$ (2) 用Lagrange乘子法证明：矩阵 $\boldsymbol{A}\in\mathbb{R}^{m\times n}$ 的2范数 $$\|\boldsymbol{A}\|_{2}=\max_{\|\boldsymbol{x}\|_2=1,\boldsymbol{x}\in\mathbb{R}^n}\|\boldsymbol{A}\boldsymbol{x}\|_{2}$$ 的平方是 $\boldsymbol{A}^{\mathrm{T}}\boldsymbol{A}$ 的最大特征值。

解：

（1）原问题等价于 $$ \left{ \begin{aligned} & \texttt{minimize} \quad - f(x)=(x-4)^2\ & g_{1}(x) = -x + 1 \leq 5\ & g_{2}(x) = x - 5 \leq 0 \ \end{aligned} \right. $$ 求目标函数和约束函数的梯度得, $$\nabla_{x}f(x) = -2(x-4), \nabla_{x}g_{1}(x) = -1, \nabla_{x}g_{2}(x) = 1$$ 将约束引入广义Lagrange乘子$v_{1}, v_{2}$, 在KKT条件上有 $$ \left{ \begin{aligned} & -2(x^{} - 4) - v_{1}^{} + v_{2}^{} = 0\ & v_{1}^{}(-x^{} + 1) = 0\ & v_{2}^{}(x^{} - 5) = 0 \ & v_{1}^{} \geq 0, v_{2}^{}\geq 0 \end{aligned} \right. $$ （4分）*

若$v_{1}^{*}\neq 0, v_{2}^{*}\neq 0$, 无解. 若$v_{1}^{*} = 0, v_{2}^{*}\neq 0$, 得$x^{*} = 5, v_{2}^{*} = 2, -f(x^{*}) = -1$. 若$v_{1}^{*} \neq 0, v_{2}^{*}= 0$, 得$x^{*} = 1, v_{1}^{*} = 6, -f(x^{*}) = -9$. 若$v_{1}^{*} = 0, v_{2}^{*}= 0$, 得$x^{*} = 4, f(x^{*}) = 0$. 因此最优点$x^{*} = 1$, maximize $f(x) = 9$。 （3分）

（2）优化问题为 $$ \begin{aligned} \texttt{maximize} \quad & f(\boldsymbol{x})=\boldsymbol{x}^{\mathrm{T}}\boldsymbol{A}^{\mathrm{T}}\boldsymbol{A}\boldsymbol{x} \ \texttt{suject to} \quad & \boldsymbol{x}^{\mathrm{T}}\boldsymbol{x}=1 \end{aligned} $$ Lagrange函数为： $$L(\boldsymbol{x})=\boldsymbol{x}^{\mathrm{T}}\boldsymbol{A}^{\mathrm{T}}\boldsymbol{A}\boldsymbol{x}-\lambda(\boldsymbol{x}^{\mathrm{T}}\boldsymbol{x}-1)$$ $$\frac{\partial L}{\partial \boldsymbol{x}}= 2\boldsymbol{A}^{\mathrm{T}}\boldsymbol{A}\boldsymbol{x} -2\lambda\boldsymbol{x}$$ 令 $ \frac{\partial L}{\partial \boldsymbol{x}}=0 $，有： $$\boldsymbol{A}^{\mathrm{T}}\boldsymbol{A}\boldsymbol{x} =\lambda$$ （3分）

这表示在$ f(\boldsymbol{x}) $的极大值点，$ \boldsymbol{x} $是$ \boldsymbol{A}^{\mathrm{T}}\boldsymbol{A} $的特征向量，$ \lambda $是对应的特征值。此时， $$f(\boldsymbol{x})=\boldsymbol{x}^{\mathrm{T}}\boldsymbol{A}^{\mathrm{T}}\boldsymbol{A}\boldsymbol{x}=\boldsymbol{x}^{\mathrm{T}}\lambda\boldsymbol{x}=\lambda\boldsymbol{x}^{\mathrm{T}}\boldsymbol{x}=\lambda$$ 因此说明，为使$ f(\boldsymbol{x}) $最大，$ f(\boldsymbol{x})=\lambda_{max}(\boldsymbol{A}^{\mathrm{T}}\boldsymbol{A}) $，其中$ \lambda_{max} $表示最大特征值。即 $$\|\boldsymbol{A}\|_{2}^2=\lambda_{max}(\boldsymbol{A}^{\mathrm{T}}\boldsymbol{A})$$ （3分）

八、（12分）

求解如下优化问题：

(1) 考虑问题

$\min f(\boldsymbol{x})=3 x_1^2+3 x_2^2-2x_1^2 x_2$ .

从初始点$\boldsymbol{x}^{(0)}=(0,1)^{\mathrm{T}}$出发, 写出用最速下降法迭代两步的求解过程，并说明迭代是否可以终止。

(2) 尽管牛顿法在求解无约束优化问题时，具有更高阶的收敛速度，但在处理大规模问题时，该方法涉及的Hessian矩阵及其逆矩阵的计算是非常耗时的。因此，研究者们探究了对Hessian矩阵逆近似的迭代方法，也就是拟牛顿法或变尺度法。通常这样近似Hessian矩阵或逆矩阵需要保持原有的性质，即满足割线方程: $$\Delta x^{(k)} = \bar{\boldsymbol{H}}^{(k+1)} \Delta g^{(k)},$$ 其中$\bar{\boldsymbol{H}}^{(k)}$表示矩阵的Hessian矩阵逆的近似。如果已经得到上一轮迭代时的近似$\bar{\boldsymbol{H}}^{(k)}$，则一般地做法是通过秩一修正或秩二修正得到下一轮的近似矩阵$\bar{\boldsymbol{H}}^{(k+1)}$。当采用秩二修正时，便得到著名的DFP法。现已知第$k$次迭代时的$\Delta x^{(k)}, \bar{\boldsymbol{H}}^{(k)}, \Delta g^{(k)}$，请给出下一轮迭代的Hessian矩阵逆的近似的推导过程。

解：

（1）由题意得, $\nabla_{\boldsymbol{x}}f(\boldsymbol{x}) = (6x_1-4x_1x_2, 6x_2-2x_1^2)^{\mathrm{T}}$，故$g^{(0)}=\nabla_{\boldsymbol{x}}f(\boldsymbol{x}^{(0)})=(0, 6)$。现设最速下降法的步长为$\lambda$, 那么 $$ f(\boldsymbol{x}^{(0)} - \lambda g^{(0)}) = 3(1-6\lambda^2) $$ 在$\nabla_{\boldsymbol{x}} f(\boldsymbol{x}^{(0)})$方向上, 使$f(\boldsymbol{x})$最小的$\lambda$为 $$\lambda = \frac{1}{6}$$ 所以, $$\boldsymbol{x}^{(1)} = \boldsymbol{x}^{(0)} - \frac{1}{2}\nabla_{\boldsymbol{x}}f(\boldsymbol{x}^{(0)}) = (0, 0)^{\mathrm{T}}$$ 易知此时$\boldsymbol{x}^{(1)}$处的梯度已经为0，可见已经收敛。显然 $$\boldsymbol{x}^{(2)} = (0, 0)^{\mathrm{T}}$$ （7分）

（2）可设 $$ \bar{\boldsymbol{H}}^{(k+1)}=\bar{\boldsymbol{H}}^{(k)}+a\boldsymbol{u}\boldsymbol{u}^{\mathrm{T}}+b\boldsymbol{v}\boldsymbol{v}^{\mathrm{T}} $$ 其中$\boldsymbol{u},\boldsymbol{v}\in\mathbb{R}^n,~a,b\in\mathbb{R}$待定。

同上所述，仍然利用割线方程，有 $$ \begin{aligned} \Delta\boldsymbol{x}^{(k)} & =\bar{\boldsymbol{H}}^{(k+1)} \Delta\boldsymbol{g}^{(k)} \ & = (\bar{\boldsymbol{H}}^{(k)}+a\boldsymbol{u}\boldsymbol{u}^{\mathrm{T}}+b\boldsymbol{v}\boldsymbol{v}^{\mathrm{T}}) \Delta\boldsymbol{g}^{(k)} \ \end{aligned} $$ 整理得 $$a(\boldsymbol{u}^{\mathrm{T}} \Delta\boldsymbol{g}^{(k)})\boldsymbol{u} + b(\boldsymbol{v}^{\mathrm{T}} \Delta\boldsymbol{g}^{(k)})\boldsymbol{v} = \Delta\boldsymbol{x}^{(k)} - \bar{\boldsymbol{H}}^{(k)} \Delta\boldsymbol{g}^{(k)}.$$ 因此，$\boldsymbol{u},\boldsymbol{v}$的线性组合等于$\Delta\boldsymbol{x}^{(k)} - \bar{\boldsymbol{H}}^{(k)} \Delta\boldsymbol{g}^{(k)}$。同样地，不妨令$\boldsymbol{u} = \Delta\boldsymbol{x}^{(k)}$，$\boldsymbol{v} = \bar{\boldsymbol{H}}^{(k)} \Delta\boldsymbol{g}^{(k)}$，则代入可得 $$a = \frac{1}{(\Delta\boldsymbol{x}^{(k)})^{\mathrm{T}} \Delta\boldsymbol{g}^{(k)}},$$ $$b = -\frac{1}{(\Delta\boldsymbol{g}^{(k)})^{\mathrm{T}} \bar{\boldsymbol{H}}^{(k)} \Delta\boldsymbol{g}^{(k)}}.$$ 从而，得到更新公式： $$ \bar{\boldsymbol{H}}^{(k+1)}=\bar{\boldsymbol{H}}^{(k)} + \frac{\Delta\boldsymbol{x}^{(k)} \Delta\boldsymbol{x}^{(k)\mathrm{T}}}{(\Delta\boldsymbol{x}^{(k)})^{\mathrm{T}} \Delta\boldsymbol{g}^{(k)}} - \frac{\bar{\boldsymbol{H}}^{(k)} \Delta\boldsymbol{g}^{(k)} (\bar{\boldsymbol{H}}^{(k)} \Delta\boldsymbol{g}^{(k)})^{\mathrm{T}}}{(\Delta\boldsymbol{g}^{(k)})^{\mathrm{T}} \bar{\boldsymbol{H}}^{(k)} \Delta\boldsymbol{g}^{(k)}} $$

（5分）

2021级答案¶

《数据科学与工程数学基础》笔试试卷 2023.2¶

《数据科学与工程数学基础》笔试试卷　　2023.2¶