跳转至

2023-2024-1期末试卷

一、多元线性回归模型(本题共30分)

考虑一个多元线性模型 \(y_i = \beta_0 + x_{i1}\beta_1 + \dots + x_{ip}\beta_p + \epsilon_i, i=1,2,\dots,n\)。对于第 \(i\) 个数据, \(y_i\) 是所观测到的响应变量, \(x_{i1}, \dots, x_{ip}\)\(p\) 个自变量(特征), \(\beta = (\beta_0, \beta_1, \dots, \beta_p)'\) 是待估计的参数向量,随机误差 \(\epsilon_i\)\(n\) 个相互独立的均值为零的正态分布随机变量构成的,即 \(\epsilon_i \sim N(0, \sigma^2)\), \(\sigma^2\) 也是未知参数。

请回答以下问题:

  1. (5分) 如何得到参数向量 \(\beta\) 的最小二乘估计 \(\hat{\beta}\) ?(注:请写明必要的符号定义和计算过程。)

  2. (5分) 在得到最小二乘估计 \(\hat{\beta} = (\hat{\beta}_0, \hat{\beta}_1, \dots, \hat{\beta}_p)'\) 后,可以得到每个数据的拟合值 \(\hat{y}_i = \hat{\beta}_0 + x_{i1}\hat{\beta}_1 + \dots + x_{ip}\hat{\beta}_p\)。令 \(SS_T = \sum_{i=1}^n (y_i - \bar{y})^2\), \(SS_R = \sum_{i=1}^n (\hat{y}_i - \bar{y})^2\), \(SS_E = \sum_{i=1}^n (y_i - \hat{y}_i)^2\)。这里 \(\bar{y} = \frac{1}{n} \sum_{i=1}^n y_i\), 证明: \(SS_T = SS_R + SS_E\)

  3. (10分) 某工厂为了研究自己生产的电子产品与两种市场中竞品的性能,设计了一个平衡的实验设计,在每个水平下,选取了4个产品做了寿命试验,寿命试验的结果作为产品性能的度量方式。实际试验中,竞品2中有一个数据出现了严重的偏差,试验人员认为该数据不可采用,于是,共有11个有效的数据。数据见表1。

为了要比较三家同类产品的性能有无差异,请利用多元线性回归模型的知识,列出方差分析表,并计算出检验统计量。

表1 第一题第三小题的数据

产品 性能 样本均值 样本方差
竞品1 26 19 25 24 23.5 9.667
竞品2 24 21 27 / 24.0 9
本厂产品 28 29 23 30 27.5 9.667
  1. (5分) 根据第三小问中所计算的检验统计量,如何判断三家同类产品的性能有无差异?请提供一种方案。(注:若提供两种及以上方案,均以第一种判分)
  2. (5分) 请给出参数向量 \(\beta\) 的岭回归估计 \(\hat{\beta}(k)\),并证明:当 \(k > 0\) 时,岭回归估计是有偏的。

二、层次聚类(本题共20分)

现四个点的位置 \(A=(5,0), B=(2,2), C=(2,3), D=(4,5)\)。请回答以下问题:

  1. (10分) 根据四个点,计算两两之间的欧式距离,并写出距离矩阵;
  2. (10分) 采用自下而上的层次聚类法,根据上述的距离矩阵对这个四个点进行聚类,关联规则(linkage)选用简单连接(single linkage),并绘制树状图。

三、朴素贝叶斯(本题共10分)

假设给定数据集见表2,其中A、B、C为二值随机变量,y为待预测的二值变量。

表2 第三题数据集

A B C y
0 1 1 0
0 1 0 1
1 1 0 0
0 0 0 0
1 1 1 1
1 0 0 1
1 0 1 1

请回答以下问题:

  1. (5分) 对一个新的输入 \(A=0, B=0, C=1\),朴素贝叶斯分类器将会怎样预测 \(y\)?
  2. (5分) 假设你知道在给定类别的情况下A、B、C是独立的随机变量,那么其他分类器(如 Logistic回归、SVM 分类器等)会比朴素贝叶斯分类器表现更好吗?为什么?(注:与上面给的数据集没有关系。)

四、支持向量机SVM(本题共25分)

  1. (15分) 已知正例点 \(x_1=(1,2)', x_2=(2,4)'\), 负例点 \(x_3=(2,1)'\), 试用 SVM 对其进行分类,求最大间隔分离超平面,并指出所有的支持向量。
  2. (10分) SVM 对噪声是否敏感,并给出原因。

五、隐马尔可夫模型HMM(本题共15分)

假设有3个罐子,每个罐子里都装有红、黑两种颜色的弹珠。按照下面的方法取弹珠:开始,以概率 \(\pi\) 随机选取一个罐子,从这个罐子以概率 B 随机取出一个弹珠,记录其颜色后放回;然后从当前盒子以概率 A 随机转移到下一个盒子,再从这个盒子里以概率 B 随机抽出一个球,记录其颜色,放回;如此重复3次,得到一个弹珠的颜色观测序列: \(O=(红、黑、红)\)。请用前向传播算法计算生成该序列的概率 \(P(O|\{A,B,\pi\})\)

\(\pi=(0.2,0.4,0.4)^T\)

\(\pi_{i}\) 表示罐子 \(i\) 初始被选中的概率

\(A=\begin{bmatrix}0.5 & 0.2 & 0.3\\ 0.3 & 0.5 & 0.2\\ 0.2 & 0.3 & 0.5\end{bmatrix}\)

\(A_{ij}\) 表示罐子 \(i\) 转移到罐子 \(j\) 的概率

\(B=\begin{bmatrix}0.5 & 0.5\\ 0.4 & 0.6\\ 0.7 & 0.3\end{bmatrix}\)

\(B_{i1}\) 表示罐子 \(i\) 抽到红球的概率

\(B_{i2}\) 表示罐子 \(i\) 抽到黑球的概率