条件付きエントロピーとは?性質と具体例、例題について



1. 条件付きエントロピー
条件付きエントロピー(conditional entropy)はXという情報を知った後に、Yの情報量はどれだけ得られるのかを表した尺度です。ようは、条件付き確率のような考えかたです。
\[ H(Y|X) = - \sum_{x \in\mathcal X,y \in\mathcal Y} p(x,y) \log_2 \frac{p(x,y)}{p(x)} \]
X givenのもとでYの情報量を求めます。ここで、\(\mathcal{X}\) と \(\mathcal{Y}\) はそれぞれ \(X\) と \(Y\) の取り得る値の集合です。
例えば、ある天候 \(X\) のもとでの運動の決定 \(Y\) を考えた場合、晴れの日に運動する可能性が高いことがわかっていれば、 \(H(Y|X)\) は低くなります。
1.1. 具体例
カレーを作る場面で条件付きエントロピーを例えると、次のようになります。
状況として、カレーを作ることを考えましょう。そして「レシピ」を知ってしまった場合の条件付きエントロピーと無条件の場合を考えます。
1.1.1. カレーを作るエントロピー
もし何も情報を知らずにカレーを作るとしたら、どの具材を使うべきか、調理手順、スパイスの組み合わせなど、いろいろな不確実性があります。これはエントロピーが高い状態です。
1.1.2. 条件付きエントロピー(レシピを知っている場合)
もしレシピを知っているとしたら、具材やスパイスの選び方、調理手順について多くの情報が与えられます。そのため、情報量は減ります。
したがって、レシピを知ることでカレー作りの手順は大まかに決まりますが、まだあなたが判断しなければならない要素が残ります。この「まだ残された不確実性」が条件付きエントロピーです。
2. 条件付きエントロピーの性質


2.1. 非負性
エントロピー自体が常に非負であることと同様に、条件付きエントロピーも非負です。
条件付きエントロピーは次のように定義されます。
\[
H(Y|X) = - \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) \log_2 P(y|x)
\]
ここで、確率 \( P(y|x) \) は \( 0 \leq P(y|x) \leq 1 \) を満たし、\(\log_2 P(y|x)\) は負または 0 です。よって \(-\log_2 P(y|x) \geq 0\) であり、\(P(x, y) \geq 0\) なので、条件付きエントロピー全体も非負になります。
\[
H(Y|X) \geq 0
\]
2.2. 結合エントロピーとの関係
\[ H(X, Y) = H(X) + H(Y|X) \]
同時確率 \( P(x, y) \) は条件付き確率に分解できます。
\[ P(x, y) = P(x) P(y|x) \]
これを結合エントロピーに代入すると、
\[ H(X, Y) = - \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) \log_2 (P(x) P(y|x)) \]
対数の性質により、\(\log_2 (P(x) P(y|x)) = \log_2 P(x) + \log_2 P(y|x)\) となるため、
\[ \begin{align*}H(X, Y) &= - \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) (\log_2 P(x) + \log_2 P(y|x)) \\ &= - \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) \log_2 P(x) - \sum_{x \in X} \sum_{y \in Y} P(x, y) \log_2 P(y|x) \end{align*} \]
ここで、\(\sum_{y \in Y} P(x, y) = P(x)\) を用いると、
\[ H(X, Y) = - \sum_{x \in\mathcal X} P(x) \log_2 P(x) - \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) \log_2 P(y|x) \]
第一項は \( H(X) \) であり、第二項は条件付きエントロピー \( H(Y|X) \) なので、
\[ H(X, Y) = H(X) + H(Y|X) \]
2.3. 条件付きエントロピーの等式
\[ H(Y|X) + H(X) = H(X|Y) + H(Y) \]
$H(X, Y) = H(X) + H(Y|X)$より、
$$H(Y,X) = H(Y)+ H(X|Y)$$
ここで、$H(X, Y)=H(Y,X)$より、
\[ H(Y|X) + H(X) = H(X|Y) + H(Y) \]
2.4. 条件付きエントロピーとエントロピーの関係
これは、\( X \) の情報を知ることによって、\( Y \) の情報量が減少することを意味します。
まず、この等式を利用して \( H(Y|X) \) を表現します。
\[ H(Y|X) = H(X|Y) + H(Y) - H(X) \]
ここで、相互情報量 \( I(X;Y) \) を利用します。
\[ I(X;Y) = H(X) - H(X|Y) \]
したがって、\( H(X|Y) = H(X) - I(X;Y) \) と書けます。これを先ほどの式に代入すると、
\[ \begin{align*} H(Y|X) &= (H(X) - I(X;Y)) + H(Y) - H(X) \\ &= H(Y) - I(X;Y) \end{align*} \]
相互情報量は常に非負であるので
\[ I(X;Y) \geq 0 \]
したがって、
\[ H(Y|X) = H(Y) - I(X;Y) \leq H(Y) \]


2.5. 等式成立条件
\[ H(Y|X) = H(Y)\]
\( X \) の情報は \( Y \) の不確実性を減らすことができないことを意味します。
\( Y \) と \( X \) が独立である場合、条件付き確率は次のようになります。
\[ P(y|x) = P(y) \]
条件付きエントロピーに代入すると、
\[
H(Y|X) = - \sum_{x \in X} \sum_{y \in Y} P(x, y) \log_2 P(y)
\]
ここで、\(P(x, y) = P(x)P(y)\) を用いると、
\[ H(Y|X) = - \sum_{y \in Y} P(y) \log_2 P(y) \sum_{x \in X} P(x) = H(Y) \]
となります。よって、独立である場合に条件付きエントロピーが元のエントロピーに等しくなります。
逆に、条件付きエントロピーが \( H(Y|X) = H(Y) \) であるとすると、\( P(y|x) = P(y) \) が成り立つため、\( X \) と \( Y \) は独立であることがわかります。


3. 条件付きエントロピーの例題
- 顧客がAのバージョンを選ぶ確率は0.6、Bのバージョンを選ぶ確率は0.4です。
- それぞれのバージョンで不具合が発生する確率は、バージョンAの場合は0.2、バージョンBの場合は0.3です。
条件付きエントロピー \( H(Y|X) \) を求めなさい。ただし、 \(X\) は製品のバージョン (AまたはB)、 \(Y\) は不具合の有無とします。
各バージョンでの \( H(Y|X = x) \) を求める。
バージョンAの場合
\[\begin{align*} H(Y|X = A) &= -[P(Y = \text{不具合}|X = A) \log_2 P(Y = \text{不具合}|X = A) + P(Y = \text{不具合なし}|X = A) \log_2 P(Y = \text{不具合なし}|X = A)] \\ &= -[0.2 \log_2 0.2 + 0.8 \log_2 0.8] \approx 0.7219 \end{align*}\]
バージョンBの場合
\[\begin{align*} H(Y|X = B) &= -[P(Y = \text{不具合}|X = B) \log_2 P(Y = \text{不具合}|X = B) + P(Y = \text{不具合なし}|X = B) \log_2 P(Y = \text{不具合なし}|X = B)] \\ &= -[0.3 \log_2 0.3 + 0.7 \log_2 0.7] \approx 0.8813 \end{align*} \]
条件付きエントロピー \( H(Y|X) \) を求める。
\[ H(Y|X) = P(X = A) H(Y|X = A) + P(X = B) H(Y|X = B) \]
\[ = 0.6 \times H(Y|X = A) + 0.4 \times H(Y|X = B) \]
数値を代入して計算
\[ H(Y|X) = 0.6 \times 0.7219 + 0.4 \times 0.8813 \approx 0.7857 \]
条件付きエントロピー \( H(Y|X) \) は約 0.7857 です。