更新:2024/09/28

条件付きエントロピーとは？性質と具体例、例題について

$はるか$

はるか

条件付きエントロピーって、どういうものかわかる？

$ふゅか$

ふゅか

もちろん！条件付きエントロピーは、ある情報 $X$ を知ったときに、もう一つの情報 $Y$ についてどれだけの情報量があるのかを示す尺度よ！

1. 条件付きエントロピー
1.1. 具体例
1.1.1. カレーを作るエントロピー
1.1.2. 条件付きエントロピー（レシピを知っている場合）
2. 条件付きエントロピーの性質
2.1. 非負性
2.2. 結合エントロピーとの関係
2.3. 条件付きエントロピーの等式
2.4. 条件付きエントロピーとエントロピーの関係
2.5. 等式成立条件
3. 条件付きエントロピーの例題

1. 条件付きエントロピー

条件付きエントロピー（conditional entropy）はXという情報を知った後に、Yの情報量はどれだけ得られるのかを表した尺度です。ようは、条件付き確率のような考えかたです。

確率変数 $X$ と $Y$ があるとき、条件付きエントロピー $H(Y|X)$ は、 $X$ の値が既知である状況で、 $Y$ に対する情報量であるので、

\[ H(Y|X) = – \sum_{x \in\mathcal X,y \in\mathcal Y} p(x,y) \log_2 \frac{p(x,y)}{p(x)} \]

X givenのもとでYの情報量を求めます。ここで、$\mathcal{X}$ と $\mathcal{Y}$ はそれぞれ $X$ と $Y$ の取り得る値の集合です。

例えば、ある天候 $X$ のもとでの運動の決定 $Y$ を考えた場合、晴れの日に運動する可能性が高いことがわかっていれば、 $H(Y|X)$ は低くなります。

1.1. 具体例

カレーを作る場面で条件付きエントロピーを例えると、次のようになります。

状況として、カレーを作ることを考えましょう。そして「レシピ」を知ってしまった場合の条件付きエントロピーと無条件の場合を考えます。

1.1.1. カレーを作るエントロピー

もし何も情報を知らずにカレーを作るとしたら、どの具材を使うべきか、調理手順、スパイスの組み合わせなど、いろいろな不確実性があります。これはエントロピーが高い状態です。

1.1.2. 条件付きエントロピー（レシピを知っている場合）

もしレシピを知っているとしたら、具材やスパイスの選び方、調理手順について多くの情報が与えられます。そのため、情報量は減ります。

したがって、レシピを知ることでカレー作りの手順は大まかに決まりますが、まだあなたが判断しなければならない要素が残ります。この「まだ残された不確実性」が条件付きエントロピーです。

2. 条件付きエントロピーの性質

$はるか$

はるか

そういえば、条件付きエントロピーって常にゼロ以上？

$ふゅか$

ふゅか

そうそう！それはエントロピーが常に非負だから、条件付きエントロピーも同じようにゼロ以上になるのよ。

2.1. 非負性

\[ H(Y|X) \geq 0 \]

エントロピー自体が常に非負であることと同様に、条件付きエントロピーも非負です。

条件付きエントロピーは次のように定義されます。
\[ H(Y|X) = – \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) \log_2 P(y|x) \]

2.2. 結合エントロピーとの関係

結合エントロピーは、条件付きエントロピーを分割する形で表すことができます。

\[ H(X, Y) = H(X) + H(Y|X) \]

同時確率 $ P(x, y) $ は条件付き確率に分解できます。

\[ P(x, y) = P(x) P(y|x) \]

これを結合エントロピーに代入すると、

\[ H(X, Y) = – \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) \log_2 (P(x) P(y|x)) \]

対数の性質により、$\log_2 (P(x) P(y|x)) = \log_2 P(x) + \log_2 P(y|x)$ となるため、

\[ \begin{align*}H(X, Y) &= – \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) (\log_2 P(x) + \log_2 P(y|x)) \\ &= – \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) \log_2 P(x) – \sum_{x \in X} \sum_{y \in Y} P(x, y) \log_2 P(y|x) \end{align*} \]

ここで、$\sum_{y \in Y} P(x, y) = P(x)$ を用いると、

\[ H(X, Y) = – \sum_{x \in\mathcal X} P(x) \log_2 P(x) – \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) \log_2 P(y|x) \]

第一項は $ H(X) $ であり、第二項は条件付きエントロピー $ H(Y|X) $ なので、

\[ H(X, Y) = H(X) + H(Y|X) \]

2.3. 条件付きエントロピーの等式

一般的には、$ H(Y|X) \neq H(X|Y) $ です。しかし、平均情報量を用いると次の関係が成り立ちます。

\[ H(Y|X) + H(X) = H(X|Y) + H(Y) \]

$H(X, Y) = H(X) + H(Y|X)$より、

$$H(Y,X) = H(Y)+ H(X|Y)$$

ここで、$H(X, Y)=H(Y,X)$より、

\[ H(Y|X) + H(X) = H(X|Y) + H(Y) \]

2.4. 条件付きエントロピーとエントロピーの関係

\[ H(Y|X) \leq H(Y) \]

これは、$ X $ の情報を知ることによって、$ Y $ の情報量が減少することを意味します。

まず、この等式を利用して $ H(Y|X) $ を表現します。

\[ H(Y|X) = H(X|Y) + H(Y) – H(X) \]

ここで、相互情報量 $ I(X;Y) $ を利用します。

\[ I(X;Y) = H(X) – H(X|Y) \]

したがって、$ H(X|Y) = H(X) – I(X;Y) $ と書けます。これを先ほどの式に代入すると、

\[ \begin{align*} H(Y|X) &= (H(X) – I(X;Y)) + H(Y) – H(X) \\ &= H(Y) – I(X;Y) \end{align*} \]

相互情報量は常に非負であるので

\[ I(X;Y) \geq 0 \]

したがって、

\[ H(Y|X) = H(Y) – I(X;Y) \leq H(Y) \]

$ふゅか$

ふゅか

条件付きエントロピーはエントロピーより小さくなるんだ。これは、情報 $X$ を知ることで $Y$ の不確実性が減るからなの。

$はるか$

はるか

$H(Y|X) \leq H(Y)$ というわけか。相互情報量 $I(X;Y)$ も関係してくる。

2.5. 等式成立条件

もし $ Y $ と $ X $ が独立であれば、

\[ H(Y|X) = H(Y)\]

$ X $ の情報は $ Y $ の不確実性を減らすことができないことを意味します。

$ Y $ と $ X $ が独立である場合、条件付き確率は次のようになります。

\[ P(y|x) = P(y) \]

条件付きエントロピーに代入すると、
\[ H(Y|X) = – \sum_{x \in X} \sum_{y \in Y} P(x, y) \log_2 P(y) \]

ここで、$P(x, y) = P(x)P(y)$ を用いると、

\[ H(Y|X) = – \sum_{y \in Y} P(y) \log_2 P(y) \sum_{x \in X} P(x) = H(Y) \]

となります。よって、独立である場合に条件付きエントロピーが元のエントロピーに等しくなります。

逆に、条件付きエントロピーが $ H(Y|X) = H(Y) $ であるとすると、$ P(y|x) = P(y) $ が成り立つため、$ X $ と $ Y $ は独立であることがわかります。

$はるか$

はるか

もし $X$ と $Y$ が独立だったら、条件付きエントロピーは元のエントロピーと同じになる

$ふゅか$

ふゅか

独立だと、情報 $X$ があっても $Y$ の不確実性は変わらないから、$H(Y|X) = H(Y)$ になるのよ。

3. 条件付きエントロピーの例題

ある企業のサブスクリプションにはA, Bの2種類のバージョンがあります。

顧客がAのバージョンを選ぶ確率は0.6、Bのバージョンを選ぶ確率は0.4です。
それぞれのバージョンで不具合が発生する確率は、バージョンAの場合は0.2、バージョンBの場合は0.3です。

条件付きエントロピー $ H(Y|X) $ を求めなさい。ただし、 $X$ は製品のバージョン (AまたはB)、 $Y$ は不具合の有無とします。

各バージョンでの $ H(Y|X = x) $ を求める。

バージョンAの場合

\[\begin{align*} H(Y|X = A) &= -[P(Y = \text{不具合}|X = A) \log_2 P(Y = \text{不具合}|X = A) + P(Y = \text{不具合なし}|X = A) \log_2 P(Y = \text{不具合なし}|X = A)] \\ &= -[0.2 \log_2 0.2 + 0.8 \log_2 0.8] \approx 0.7219 \end{align*}\]

バージョンBの場合

\[\begin{align*} H(Y|X = B) &= -[P(Y = \text{不具合}|X = B) \log_2 P(Y = \text{不具合}|X = B) + P(Y = \text{不具合なし}|X = B) \log_2 P(Y = \text{不具合なし}|X = B)] \\ &= -[0.3 \log_2 0.3 + 0.7 \log_2 0.7] \approx 0.8813 \end{align*} \]

条件付きエントロピー $ H(Y|X) $ を求める。

\[ H(Y|X) = P(X = A) H(Y|X = A) + P(X = B) H(Y|X = B) \]

\[ = 0.6 \times H(Y|X = A) + 0.4 \times H(Y|X = B) \]

数値を代入して計算

\[ H(Y|X) = 0.6 \times 0.7219 + 0.4 \times 0.8813 \approx 0.7857 \]

条件付きエントロピー $ H(Y|X) $ は約 0.7857 です。