作业3¶
Q1¶
令\(X_s\)表示经标准化后的特征,即\(X_s=(x_1,x_2,\cdots,x_p)\)中\(n^{-1}\sum_{i=1}^n x_{ij}=0\)而\(\sum_{i=1}^n x_{ij}^2=1\)。\(X_s\)的相关系数矩阵为\((X_s'X_s)\),其逆矩阵为\((X_s'X_s)^{-1}=C={c_{ij}}\)。
我们将\(x_j\)作为因变量,而将剩余的特征作为自变量,建立多元线性回归模型,即
\(x_j=\alpha_1^j x_1+\cdots+\alpha_{j-1}^j x_{j-1}+\alpha_{j+1}^j x_{j+1}+\cdots+\alpha_p^j x_p+\epsilon^j.\)
令\(R_j^2\)为该回归模型的复决定系数。 证明:
\(c_{jj}=\dfrac{1}{1-R_j^2}\)。
Q2¶
经中心化后因变量\(y\)以及经标准化后的自变量\(X\)。我们建立多元线性回归模型,其最小二乘估计为
\(\hat{\beta}=(X'X)^{-1}X'y.\)
请计算
\(MSE(\hat{\beta})=E(\hat{\beta}-\beta)'(\hat{\beta}-\beta),\)
需要写出推导过程。
Q3.(选做)¶
从贝叶斯统计的角度解释岭回归,并提供完整的证明过程。提示:
- 讨论\(X\)标准化和\(y\)中心化下的线性模型框架;
- 给出\(\beta_j,j=1,2,\cdots,p\)合适的先验分布;
- 假定数据分布为\(y_i\sim N(\beta_1x_1+\cdots+\beta_px_p,\sigma^2),\ i=1,2,\cdots,n\)。
- 参考书:
- 《Bayesian Data Analysis, 3e》Page 77.
- 《The Elements of Statistical Learning, 2e》Subsection 3.4.1.