跳转至

作业3

Q1

\(X_s\)表示经标准化后的特征,即\(X_s=(x_1,x_2,\cdots,x_p)\)\(n^{-1}\sum_{i=1}^n x_{ij}=0\)\(\sum_{i=1}^n x_{ij}^2=1\)\(X_s\)的相关系数矩阵为\((X_s'X_s)\),其逆矩阵为\((X_s'X_s)^{-1}=C={c_{ij}}\)

我们将\(x_j\)作为因变量,而将剩余的特征作为自变量,建立多元线性回归模型,即

\(x_j=\alpha_1^j x_1+\cdots+\alpha_{j-1}^j x_{j-1}+\alpha_{j+1}^j x_{j+1}+\cdots+\alpha_p^j x_p+\epsilon^j.\)

\(R_j^2\)为该回归模型的复决定系数。 证明:

\(c_{jj}=\dfrac{1}{1-R_j^2}\)

Q2

经中心化后因变量\(y\)以及经标准化后的自变量\(X\)。我们建立多元线性回归模型,其最小二乘估计为

\(\hat{\beta}=(X'X)^{-1}X'y.\)

请计算

\(MSE(\hat{\beta})=E(\hat{\beta}-\beta)'(\hat{\beta}-\beta),\)

需要写出推导过程。

Q3.(选做)

从贝叶斯统计的角度解释岭回归,并提供完整的证明过程。提示:

  1. 讨论\(X\)标准化和\(y\)中心化下的线性模型框架;
  2. 给出\(\beta_j,j=1,2,\cdots,p\)合适的先验分布;
  3. 假定数据分布为\(y_i\sim N(\beta_1x_1+\cdots+\beta_px_p,\sigma^2),\ i=1,2,\cdots,n\)
  4. 参考书:
  5. 《Bayesian Data Analysis, 3e》Page 77.
  6. 《The Elements of Statistical Learning, 2e》Subsection 3.4.1.