跳转至

作业18

提交截至时间:暂定 \(2 0 2 2 / 0 6 / ^ { \ast \ast }\) 周五 20:00(晚上)

理论部分

习题 1. 同时抛 2 颗骰子,事件 \(A , B , C\) 分别表示为

(A) 仅有一个骰子是 3

\(( B )\) 至少一个骰子是 4

\(( C )\) 骰子上点数总和为偶数。

试计算事件 \(A , B , C\) 发生后所提供的信息量

解. \(\begin{array} { r } { H _ { A } = - \log \frac { 5 } { 1 8 } , H _ { B } = - \log \frac { 1 1 } { 3 6 } , H _ { C } = - \log \frac { 1 } { 2 } } \end{array}\)

习题 2. 一个容器里面装有 \(a\) 个红球和 \(a\) 个白球,若从容器中取出 \(k\) 个球 \(( k \geq 2 )\)。对于有放回和无放回两种情况,哪种情况的熵更大?请回答并给予说明。

解. 考虑集合 \(\{ ( x _ { 1 } , x _ { 2 } , \ldots , x _ { n } ) | x _ { i } = 0 o r 1 \}\) 如果 \(x _ { i } = 0\) 则代表第 \(i\) 次取出红球否则取出白球。在有放回的情况下,取得该集合里面任意元素的概率都是相同的,且概率和为 1. 而在无放回的情况下,则取得不同元素的概率是有可能不同的。且概率和也为 1. 根据熵的极值性得,有放回的情况下熵更大。

习题 3. 证明:在多分类问题中,利用交叉熵函数作为损失函数和用 \(K L\) 散度作为损失函数是等价的。

解. 真实分布:设第 \(i\) 个样本 \(x _ { i }\) 属于 \(y _ { i }\) 类,真实标签分布为 \(p _ { i }\)\(p _ { i }\) 是第 \(y _ { i }\) 个分量为 \(1\) 的one-hot向量。

预测分布:对于第 \(i\) 个样本 \(x _ { i }\) ,预测标签分布是 \(q _ { i } = f ( x _ { i } ; \theta )\)\(\theta\) 是要学习的参数。

KL散度=\((p _ {i} ^ {T} \log p _ {i} - p _ {i} ^ {T} \log q _ {i})\)

交叉熵 \(= \left( - p _ { i } ^ { T } \log q _ { i } \right)\)

由于真实标签是真实存在的,不变的。所以 \(\operatorname { a r g m i n } _ { \theta }\) KL散度 \(= \operatorname { a r g m i n } _ { \theta }\) 交叉熵。