2022级答案
2023—2024学年第一学期
考试科目:数据科学与工程数学基础 任课教师:黄定江
姓名:_ 学号:_
专业:_ 班级:_
| 题号 |
一 |
二 |
三 |
四 |
五 |
六 |
七 |
八 |
总分 |
阅卷人签名 |
| 得分 |
|
|
|
|
|
|
|
|
|
|
一、(13分)
完成以下问题:
(1) 对矩阵 \(\boldsymbol{M} = \begin{pmatrix} 5 & 3 & -1 & 3 \\ 0 & 1 & 1 & -2 \\ -5 & -3 & 4 & -4 \\ 0 & 1 & 1 & 0 \end{pmatrix}\) 进行LU分解;
(2) 设 \(A\) 对称且 \(a_{11} \neq 0\),并假经过一步Gauss消去之后,\(A\) 具有如下形式
\[\left[\begin{array}{ll} a_{11} & a_1^{\mathrm{T}} \\ \boldsymbol{0} & A_2 \end{array}\right]\]
证明:\(A_2\) 仍是对称矩阵。
答案:
(1)
\[\boldsymbol{A}=\begin{pmatrix} 5 & 3 & -1 & 3 \\ 0 & 1 & 1 & -2 \\ -5 & -3 & 4 & -4 \\ 0 & 1 & 1 & 0 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 0 & 0 \\ 0 & 1 & 0 & 0 \\ -1 & 0 & 1 & 0 \\ 0 & 1 & 0 & 1 \end{pmatrix} \begin{pmatrix} 5 & 3 & -1 & 3 \\ 0 & 1 & 1 & -2 \\ 0 & 0 & 3 & -1 \\ 0 & 0 & 0 & 2 \end{pmatrix} =\boldsymbol{L}\boldsymbol{U}\]
(7分)
(2)记矩阵 \(A\) 和高斯变换矩阵分别为:
\[A = \left[\begin{array}{ll} a_{11} & a_1^{\mathrm{T}} \\ a_1 & A_1 \end{array}\right], \quad G = \left[\begin{array}{ll} 1 & \boldsymbol{0}^{\mathrm{T}} \\ -l_1 & I \end{array}\right]\]
则
\[GA=\left[\begin{array}{ll} a_{11} & a_1^{\mathrm{T}} \\ -a_{11} l_1+a_1 & -l_1 a_1^{\mathrm{T}} + A_1 \end{array}\right]\]
易知 \(-a_{11} l_1+a_1=\boldsymbol{0}\) 以及 \(A_2=-l_1 a_1^{\mathrm{T}} + A_1\)。由第一个等式可得 \(l_1=1/a_{11} a_1\),代入第二个等式知
\[A_2=-\frac{1}{a_{11}} a_1 a_1^{\mathrm{T}} + A_1\]
故可知 \(A_2\) 仍是对称矩阵。 (6分)
二、(10分)
\(\mathbb{R}^5\) 的欧氏空间。子空间 \(U \subseteq \mathbb{R}^{5}\) 和 \(\boldsymbol{x} \in \mathbb{R}^{5}\) 如下:
\[U=\text{span} \left\{ \left[\begin{array}{c}{0} \\ {-1} \\ {2} \\ {0} \\ {1}\end{array}\right],\left[\begin{array}{c}{1} \\ {-1} \\ {1} \\ {-1} \\ {1}\end{array}\right] \right\}, \quad \boldsymbol{x}=\left[\begin{array}{c}{0} \\ {1} \\ {0} \\ {0} \\ {0}\end{array}\right]\]
请确定 \(\boldsymbol{x}\) 在子空间 \(\mathbb{U}\) 上的正交投影 \(\pi_{\mathbb{U}}(\boldsymbol{x})\)。
答案:
首先,将 \(U\) 中的基向量构成矩阵 \(A\):
\[A=\left[\begin{array}{ll} 0 & 1 \\ -1 & -1 \\ 2 & 1 \\ 0 & -1 \\ 1 & 1 \end{array}\right]\]
易计算出
\[A^{\mathrm{T}} A=\left[\begin{array}{ll} 6 & 4 \\ 4 & 5 \end{array}\right], \quad (A^{\mathrm{T}} A)^{-1}=\left[\begin{array}{ll} 5/14 & -2/7 \\ -2/7 & 3/7 \end{array}\right]\]
(4分)
然后,计算投影矩阵 \(P_U\):
\[P_U=\left[\begin{array}{ccccc} 3/7 & -1/7 & -1/7 & -3/7 & 1/7 \\ -1/7 & 3/14 & -2/7 & 1/7 & -3/14 \\ -1/7 & -2/7 & 5/7 & 1/7 & 2/7 \\ -3/7 & 1/7 & 1/7 & 3/7 & -1/7 \\ 1/7 & -3/14 & 2/7 & -1/7 & 3/14 \end{array}\right]\]
因此,投影
\[\pi_U(x) = P_U x = (-1/7, ~ 3/14, ~ -2/7, ~ 1/7, ~ -3/14)\]
(6分)
三、(13分)
完成下列矩阵函数求梯度:
(1) 求函数 \(f(\boldsymbol{x})=\boldsymbol{a}^{\mathrm{T}} \boldsymbol{x}\) 和 \(g(\boldsymbol{x})=\boldsymbol{x}^{\mathrm{T}} \boldsymbol{A} \boldsymbol{x}\) 的 Hessian 矩阵;
(2) 考虑一个两层的全连接神经网络:
\[\boldsymbol{y}=\boldsymbol{f}(\boldsymbol{x})=\mathrm{ReLU}(\boldsymbol{A}_2(\mathrm{ReLU}(\boldsymbol{A}_1\boldsymbol{x}+\boldsymbol{b}_1))+\boldsymbol{b}_2)\]
其中
\[\boldsymbol{A}_1=\begin{bmatrix} 2 & 3 \\ -2 & 1 \\ 3 & -1 \end{bmatrix}, \boldsymbol{A}_2=\begin{bmatrix} 3 & -1 & 0 \\ 1 & -2 & 2 \end{bmatrix}, \boldsymbol{b}_1=\begin{bmatrix} -1 \\ 4 \\ -2 \end{bmatrix}, \boldsymbol{b}_2=\begin{bmatrix} 2 \\ -3 \end{bmatrix}\]
假设输入为 \(\boldsymbol{x}=(1,-1)\),并且对应的真实输出为 \(\hat{\boldsymbol{y}}=(0,1)\),采用平方损失 \(L=\frac12\|\boldsymbol{y}-\hat{\boldsymbol{y}}\|_2^2\)。试计算函数 \(L\) 关于 \(\boldsymbol{b}_1\) 的梯度。
答案:
(1)因为 \(\frac{\partial f}{\partial \boldsymbol{x}} = \boldsymbol{a}\),因此 \(H_f = \boldsymbol{0}\)。又
\[\begin{aligned} d(g)&= \operatorname{Tr}( d\boldsymbol{x}^{\mathrm{T}} \cdot \boldsymbol{A} \boldsymbol{x} + \boldsymbol{A} \boldsymbol{x} d\boldsymbol{x}) \\ &=\operatorname{Tr}(\boldsymbol{x}^{\mathrm{T}} (\boldsymbol{A}^{\mathrm{T}} + \boldsymbol{A}) d\boldsymbol{x}) \end{aligned}\]
所以 Hessian 矩阵 \(H_g = \boldsymbol{A}^{\mathrm{T}} + \boldsymbol{A}\)。 (5分)
(2)先计算前向过程:
\[\boldsymbol{A}_1\boldsymbol{x}+\boldsymbol{b}_1=\begin{bmatrix} -2 \\ 1 \\ 2 \end{bmatrix}, \quad \boldsymbol{A}_2(\mathrm{ReLU}(\boldsymbol{A}_1\boldsymbol{x}+\boldsymbol{b}_1))+\boldsymbol{b}_2=\begin{bmatrix} 1 \\ 0 \end{bmatrix}\]
故 \(\boldsymbol{y}=(1,0)\),从而 \(L=1\)。
记
\[\boldsymbol{k}=\mathrm{ReLU}(\boldsymbol{A}_1\boldsymbol{x}+\boldsymbol{b}_1)\]
然后分别计算
\[\frac{\partial L}{\partial \boldsymbol{y}}=\begin{bmatrix} 1 \\ -1 \end{bmatrix}, \quad \frac{\partial \boldsymbol{y}^{\mathrm{T}}}{\partial \boldsymbol{k}}=\begin{bmatrix} 3 & 0 \\ -1 & 0 \\ 0 & 0 \end{bmatrix}, \quad \frac{\partial \boldsymbol{k}^{\mathrm{T}}}{\partial \boldsymbol{b}_1}=\begin{bmatrix} 0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix}\]
所以有
\[\frac{\partial L}{\partial \boldsymbol{b}_1}=\frac{\partial \boldsymbol{k}^{\mathrm{T}}}{\partial \boldsymbol{b}_1}\frac{\partial \boldsymbol{y}^{\mathrm{T}}}{\partial \boldsymbol{k}}\frac{\partial L}{\partial \boldsymbol{y}} =\begin{bmatrix} 0 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix} \begin{bmatrix} 3 & 0 \\ -1 & 0 \\ 0 & 0 \end{bmatrix}\begin{bmatrix} 1 \\ -1 \end{bmatrix}=\begin{bmatrix} 0 \\ -1 \\ 0 \end{bmatrix}\]
(8分)
四、(13分)
完成下列问题:
(1) 设已知矩阵 \(\boldsymbol{M} \in \mathbb{R}^{m \times n}\) 的SVD分解为 \(\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\mathrm{T}}\),请写出拼接矩阵 \(\boldsymbol{A} = [\boldsymbol{M} \quad \boldsymbol{M}]\) 的奇异值分解;
(2) 令 \(\boldsymbol{A}\) 为 \(m\times n\) 矩阵,且 \(\boldsymbol{P}\) 为 \(m\times m\) 正交矩阵。证明:\(\boldsymbol{P} \boldsymbol{A}\) 与 \(\boldsymbol{A}\) 的奇异值相同。并说明矩阵 \(\boldsymbol{P} \boldsymbol{A}\) 与 \(\boldsymbol{A}\) 的左、右奇异向量有何关系?
答案:
(1)因为 \(\boldsymbol{M}=\boldsymbol{U} \boldsymbol{\Sigma} \boldsymbol{V}^{\mathrm{T}}\),因此
\[\boldsymbol{A} \boldsymbol{A}^{\mathrm{T}} = 2 \boldsymbol{M} \boldsymbol{M}^{\mathrm{T}} = \boldsymbol{U} \cdot 2\boldsymbol{\Sigma}_{m \times m}^2 \cdot \boldsymbol{U}^{\mathrm{T}}\]
故 \(\boldsymbol{A}\) 的奇异值为 \(\sqrt{2}\boldsymbol{\Sigma}_{m \times 2n}\),左奇异向量构成的正交矩阵就是 \(\boldsymbol{U}\)。 (3分)
由 \(\boldsymbol{U}^{\mathrm{T}} \boldsymbol{A}\) 与右奇异向量(设为 \(\boldsymbol{V}_{\boldsymbol{A}}\))的关系可直接计算出
\[[\boldsymbol{\Sigma}_{m \times n}\boldsymbol{V}^{\mathrm{T}} \quad \boldsymbol{\Sigma}_{m \times n}\boldsymbol{V}^{\mathrm{T}}] = \sqrt{2} \boldsymbol{\Sigma}_{m \times 2n} \boldsymbol{V}_{\boldsymbol{A}}^{\mathrm{T}}\]
对比等式两边可得 \(\boldsymbol{V}_{\boldsymbol{A}}^{\mathrm{T}}\) 的前 \(n\) 行即为 \([\frac{1}{\sqrt{2}}\boldsymbol{V}^{\mathrm{T}} \quad \frac{1}{\sqrt{2}}\boldsymbol{V}^{\mathrm{T}}]\)。对此进行正交扩充,可得
\[\boldsymbol{V}_{\boldsymbol{A}}^{\mathrm{T}} = \left[\begin{array}{ll} \frac{1}{\sqrt{2}}\boldsymbol{V}^{\mathrm{T}} & \frac{1}{\sqrt{2}}\boldsymbol{V}^{\mathrm{T}} \\ \frac{1}{\sqrt{2}}\boldsymbol{V}^{\mathrm{T}} & -\frac{1}{\sqrt{2}}\boldsymbol{V}^{\mathrm{T}} \end{array}\right]\]
(4分)
(2)因为 \((\boldsymbol{P}\boldsymbol{A})^{\mathrm{T}} (\boldsymbol{P}\boldsymbol{A}) = \boldsymbol{A}^{\mathrm{T}}\boldsymbol{P}^{\mathrm{T}}\boldsymbol{P}\boldsymbol{A}=\boldsymbol{A}^{\mathrm{T}}\boldsymbol{A}\),故它们的奇异值相同。 (2分)
假设 \(\boldsymbol{A}\) 的SVD分解为
\[\boldsymbol{A}=U \Sigma V^{\mathrm{T}}\]
其中 \(U, V \in \mathbb{R}^{n \times n}\) 正交。故
\[\boldsymbol{P}\boldsymbol{A}=\boldsymbol{P} U \Sigma V^{\mathrm{T}}\]
因为 \(\boldsymbol{P}\) 为正交矩阵,因此 \(\boldsymbol{P} U\) 为其左奇异向量,\(V\) 就是 \(\boldsymbol{P} \boldsymbol{A}\) 的右奇异向量。 (4分)
五、(12分)
已知矩阵
\[\boldsymbol{M} = \begin{pmatrix} 5 & 1 & 2 \\ -2 & -3 & 4 \\ 1 & 3 & -1 \end{pmatrix}\]
(1) 计算矩阵 \(\boldsymbol{M}\) 的 \(1\) 范数和 \(\infty\) 范数;
(2) 证明:如果矩阵 \(\boldsymbol{A} = [\boldsymbol{a}_1, \boldsymbol{a}_2, \cdots, \boldsymbol{a}_n]\) 是按列分块的,那么 \(\|\boldsymbol{A}\|_F^2 = \|\boldsymbol{a}_1\|_2^2 + \|\boldsymbol{a}_2\|_2^2 + \cdots + \|\boldsymbol{a}_n\|_2^2\)。
(3) 设 \(a_1,a_2,\cdots,a_n\) 是 \(n\) 个正数,证明:由
\[\Omega(\boldsymbol{x})=\left(\sum_{i=1}^na_ix_i^2\right)^{\frac{1}{2}}\]
定义的函数 \(\Omega: \mathbb{R}^n\to\mathbb{R}\) 是一个范数。
答案:
(1)
\[\|\boldsymbol{M}\|_1=\max\{5+|-2|+1, 1+|-3|+3, 2+4+|-1|\}=8\]
\[\|\boldsymbol{M}\|_{\infty}=\max\{5+1+2, |-2|+|-3|+4, 1+3+|-1|\}=9\]
(2分)
(2)因为矩阵 \(\boldsymbol{A}\) 的 \(F\) 范数的平方是矩阵各元素的平方和,而 \(\boldsymbol{a}_1\) 的 \(\ell_2\) 范数的平方是矩阵第一列元素的平方和,以此类推,\(\boldsymbol{a}_n\) 的 \(\ell_2\) 范数的平方是矩阵第 \(n\) 列元素的平方和。因此,得证。 (5分)
(3)可以通过定义证明该函数具有范数的非负性、齐次性和三角不等式,只要证明过程合理即可。 (5分)
六、(12分)
求解以下问题:
(1) 假设 \(X_{1} \rightarrow X_{2} \rightarrow X_{3} \rightarrow \cdots \rightarrow X_{n}\) 是一个马尔科夫链,即
\[p\left(x_{1}, x_{2}, \ldots, x_{n}\right)=p\left(x_{1}\right) p\left(x_{2} \mid x_{1}\right) \cdots p\left(x_{n} \mid x_{n-1}\right)\]
试化简 \(I\left(X_{1} ; X_{2}, \ldots, X_{n}\right)\)。
(2) \(X\) 和 \(Y\) 是 \(\{0,1,2,3\}\) 上的独立、等概率分布的随机变量,求 \(H(X+Y)\)。
答案:
(1)
\[\begin{aligned} I\left(X_{1} ; X_{2}, \ldots, X_{n}\right) &=H\left(X_{1}\right)-H\left(X_{1} \mid X_{2}, \ldots, X_{n}\right) \\ &=H\left(X_{1}\right)-\left[H\left(X_{1}, X_{2}, \ldots, X_{n}\right)-H\left(X_{2}, \ldots, X_{n}\right)\right] \\ &=H\left(X_{1}\right)-\left[\sum_{i=1}^{n} H\left(X_{i} \mid X_{i-1}, \ldots, X_{1}\right)-\sum_{i=2}^{n} H\left(X_{i} \mid X_{i-1}, \ldots, X_{2}\right)\right] \\ &=H\left(X_{1}\right)-\left[\left(H\left(X_{1}\right)+\sum_{i=2}^{n} H\left(X_{i} \mid X_{i-1}\right)\right) -\left(H\left(X_{2}\right)+\sum_{i=3}^{n} H\left(X_{i} \mid X_{i-1}\right)\right)\right] \\ &=H\left(X_{2}\right)-H\left(X_{2} \mid X_{1}\right) \\ &=I\left(X_{2} ; X_{1}\right) \\ &=I\left(X_{1} ; X_{2}\right) \end{aligned}\]
(7分)
(2)\(X+Y\) 的分布律:
| \(X+Y\) |
0 |
1 |
2 |
3 |
4 |
5 |
6 |
| 概率 |
1/16 |
2/16 |
3/16 |
4/16 |
3/16 |
2/16 |
1/16 |
因此
\[H(X+Y) =-( 2\frac{1}{16} \log_2 \frac{1}{16} + 2\frac{2}{16} \log_2 \frac{2}{16} + 2\frac{3}{16} \log_2 \frac{3}{16} + \frac{4}{16} \log_2 \frac{4}{16})\]
也可以用其他对数,这里可化简也可以不化简。 (5分)
七、(13分)
求解下述问题:
(1) 请计算负熵函数 \(f(\boldsymbol{x})=\sum_{i=1}^{n} x_i \log x_i\) 的共轭函数。
(2) 用Lagrange乘子法求欠定方程 \(\boldsymbol{A}\boldsymbol{x}=\boldsymbol{b}\) 的最小二范数解,其中 \(\boldsymbol{A}\in\mathbb{R}^{m\times n}, m\leq n, \operatorname{rank}(\boldsymbol{A})=m\)。
答案:
(1)设 \(g(x) = \langle x,y \rangle-f(x) = \langle x,y \rangle-\sum_{i=1}^{n} x_i \log x_i\),对 \(x\) 求梯度可得:
\[\nabla g = [y_1-\log x_1 - 1~ y_2-\log x_2 - 1~ \cdots~ y_n-\log x_n - 1]^{\mathrm{T}}\]
因此,可得最优解为 \(x_i = e^{y_i - 1}\),代入即得:
\[f^* (\boldsymbol{y}) = \sum_{i=1}^{n} e^{y_i - 1}\]
(6分)
(2)优化问题为
\[\begin{aligned} \texttt{min} \quad & f(\boldsymbol{x})=\frac{1}{2}\|\boldsymbol{x}\|_{2}^2 \\ \texttt{subject to} \quad & \boldsymbol{A}\boldsymbol{x}=\boldsymbol{b} \end{aligned}\]
Lagrange函数为:
\[L(\boldsymbol{x}, \boldsymbol{\lambda})=\frac{1}{2}\boldsymbol{x}^{\mathrm{T}}\boldsymbol{x}-\boldsymbol{\lambda}^{\mathrm{T}}(\boldsymbol{A}\boldsymbol{x}-\boldsymbol{b})\]
\[\frac{\partial L}{\partial \boldsymbol{x}}= \boldsymbol{x} -\boldsymbol{A}^{\mathrm{T}}\boldsymbol{\lambda}\]
令 \(\frac{\partial L}{\partial \boldsymbol{x}}=0\),有:
\[\boldsymbol{x}=\boldsymbol{A}^{\mathrm{T}}\boldsymbol{\lambda}\]
\[g(\boldsymbol{\lambda})=-\frac{1}{2}\boldsymbol{\lambda}^{\mathrm{T}}\boldsymbol{A}\boldsymbol{A}^{\mathrm{T}}\lambda+\boldsymbol{\lambda}^{\mathrm{T}}\boldsymbol{b}\]
令 \(\frac{\partial g}{\partial \boldsymbol{\lambda}}=0\):
\[-\boldsymbol{A}\boldsymbol{A}^{\mathrm{T}}\lambda+\boldsymbol{b}=\boldsymbol{0}\]
由 \(\boldsymbol{A}\in\mathbb{R}^{m\times n}, \operatorname{rank}(\boldsymbol{A})=m\) 得 \(\boldsymbol{A}\boldsymbol{A}^{\mathrm{T}}\) 可逆,因此
\[\boldsymbol{\lambda}=(\boldsymbol{A}\boldsymbol{A}^{\mathrm{T}})^{-1}\boldsymbol{b}\]
因此,\(\boldsymbol{x}\) 满足 \(\boldsymbol{A}\boldsymbol{x}=\boldsymbol{b}\) 的最小二范数解:
\[\boldsymbol{x}=\boldsymbol{A}^{\mathrm{T}}(\boldsymbol{A}\boldsymbol{A}^{\mathrm{T}})^{-1}\boldsymbol{b}\]
(7分)
八、(14分)
求解如下优化问题:
(1) 使用梯度下降法和固定步长 \(\lambda =0.1\) 计算 \(\min f(x)=(x_{1}-1)^{2}+16(x_{2}-2)^{2}\),初始点 \(x^{(0)}=(3,2)^{T}\),迭代至第三步后终止,请计算迭代过程中的解、梯度和函数值(第三步不用计算梯度和函数值,计算结果保留小数点后两位)。
(2) 请谈谈牛顿法与BFGS方法之间的区别与联系。
答案:
(1)易求得梯度为:
\[\nabla f = [2(x_1 - 1) \quad 32(x_2 - 2) ]^{\mathrm{T}}\]
具体迭代结果:
| \(k\) |
\(x^{(k)^{\mathrm{T}}}\) |
\(g_k^{\mathrm{T}}\) |
\(f_k\) |
| 0 |
(3,2) |
(4,0) |
4 |
| 1 |
(2.6,2) |
(3.2, 0) |
2.56 |
| 2 |
(2.28,2) |
(2.56, 0) |
1.6384 |
| 3 |
(2.024,2) |
|
|
(8分)
(2)牛顿法(Newton's method)和BFGS算法(Broyden-Fletcher-Goldfarb-Shanno algorithm)都是优化算法,用于求解无约束非线性优化问题。它们都属于迭代优化算法,但有一些关键的区别。
1. 原理和基本思想:
2. 更新规则:
3. 收敛性:
总体上,只要言之有理,且答到关键点即可给分。 (6分)