作业8¶

提交截至时间：2022/12/5 周一 12:00（中午）

理论部分¶

习题 1. 同时抛 2 颗骰子，事件 \(A , B , C\) 分别表示为

(A) 仅有一个骰子是 3

\(( B )\) 至少一个骰子是 4

\(( C )\) 骰子上点数总和为偶数。

试计算事件 \(A , B , C\) 发生后所提供的信息量

解. \(\begin{array} { r } { H _ { A } = - \log \frac { 5 } { 1 8 } , H _ { B } = - \log \frac { 1 1 } { 3 6 } , H _ { C } = - \log \frac { 1 } { 2 } } \end{array}\)

习题 2. 一个容器里面装有 \(a\) 个红球和 \(a\) 个白球，若从容器中取出 \(k\) 个球 \(( k \geq 2 )\)。对于有放回和无放回两种情况，哪种情况的熵更大？请回答并给予说明。

解. 考虑集合 \(\{ ( x _ { 1 } , x _ { 2 } , \ldots , x _ { n } ) | x _ { i } = 0 o r 1 \}\) 如果 \(x _ { i } = 0\) 则代表第 \(i\) 次取出红球否则取出白球。在有放回的情况下，取得该集合里面任意元素的概率都是相同的，且概率和为 1. 而在无放回的情况下，则取得不同元素的概率是有可能不同的。且概率和也为 1. 根据熵的极值性得，有放回的情况下熵更大。

习题 3. 证明：在多分类问题中，利用交叉熵函数作为损失函数和用 \(K L\) 散度作为损失函数是等价的。

解. 真实分布：设第 \(i\) 个样本 \(x _ { i }\) 属于 \(y _ { i }\) 类，真实标签分布为 \(p _ { i }\) ， \(p _ { i }\) 是第 \(y _ { i }\) 个分量为 \(1\) 的one-hot向量。

预测分布：对于第 \(i\) 个样本 \(x _ { i }\) ，预测标签分布是 \(q _ { i } = f ( x _ { i } ; \theta )\) ， \(\theta\) 是要学习的参数。

KL散度=\((p _ {i} ^ {T} \log p _ {i} - p _ {i} ^ {T} \log q _ {i})\)

交叉熵 \(= \left( - p _ { i } ^ { T } \log q _ { i } \right)\)

由于真实标签是真实存在的，不变的。所以 \(\operatorname { a r g m i n } _ { \theta }\) KL散度 \(= \operatorname { a r g m i n } _ { \theta }\) 交叉熵。

习题 4. (互信息) 假设 \(X _ { 1 } \to X _ { 2 } \to X _ { 3 } \to \cdot \cdot \cdot \to X _ { n }\) 是一个马尔科夫链，即

\[ p \left(x _ {1}, x _ {2}, \dots , x _ {n}\right) = p \left(x _ {1}\right) p \left(x _ {2} \mid x _ {1}\right) \dots p \left(x _ {n} \mid x _ {n - 1}\right) \]

试化简 \(I \left( X _ { 1 } ; X _ { 2 } , \ldots , X _ { n } \right)\)

解.

\[ \begin{array}{l} I \left(X _ {1}; X _ {2}, \dots , X _ {n}\right) = H \left(X _ {1}\right) - H \left(X _ {1} \mid X _ {2}, \dots , X _ {n}\right) \\ = H \left(X _ {1}\right) - \left[ H \left(X _ {1}, X _ {2}, \dots , X _ {n}\right) - H \left(X _ {2}, \dots , X _ {n}\right) \right] \\ = H \left(X _ {1}\right) - \left[ \sum_ {i = 1} ^ {n} H \left(X _ {i} \mid X _ {i - 1}, \dots , X _ {1}\right) - \sum_ {i = 2} ^ {n} H \left(X _ {i} \mid X _ {i - 1}, \dots , X _ {2}\right) \right] \\ = H \left(X _ {1}\right) - \left[ \left(H \left(X _ {1}\right) + \sum_ {i = 2} ^ {n} H \left(X _ {i} \mid X _ {i - 1}\right)\right) - \left(H \left(X _ {2}\right) + \sum_ {i = 3} ^ {n} H \left(X _ {i} \mid X _ {i - 1}\right)\right) \right] \\ = H \left(X _ {2}\right) - H \left(X _ {2} \mid X _ {1}\right) \\ = I \left(X _ {2}; X _ {1}\right) \\ = I \left(X _ {1}; X _ {2}\right) \\ \end{array} \]