更新:2024/09/28

条件付きエントロピーとは?性質と具体例、例題について

はるか
はるか
条件付きエントロピーって、どういうものかわかる?
ふゅか
ふゅか
もちろん!条件付きエントロピーは、ある情報 \(X\) を知ったときに、もう一つの情報 \(Y\) についてどれだけの情報量があるのかを示す尺度よ!

1. 条件付きエントロピー

条件付きエントロピー(conditional entropy)はXという情報を知った後に、Yの情報量はどれだけ得られるのかを表した尺度です。ようは、条件付き確率のような考えかたです。

確率変数 \(X\) と \(Y\) があるとき、条件付きエントロピー \(H(Y|X)\) は、 \(X\) の値が既知である状況で、 \(Y\) に対する情報量であるので、

\[ H(Y|X) = -  \sum_{x \in\mathcal X,y \in\mathcal Y} p(x,y) \log_2 \frac{p(x,y)}{p(x)} \]

X givenのもとでYの情報量を求めます。ここで、\(\mathcal{X}\) と \(\mathcal{Y}\) はそれぞれ \(X\) と \(Y\) の取り得る値の集合です。

例えば、ある天候 \(X\) のもとでの運動の決定 \(Y\) を考えた場合、晴れの日に運動する可能性が高いことがわかっていれば、 \(H(Y|X)\) は低くなります。

1.1. 具体例

カレーを作る場面で条件付きエントロピーを例えると、次のようになります。

状況として、カレーを作ることを考えましょう。そして「レシピ」を知ってしまった場合の条件付きエントロピーと無条件の場合を考えます。

1.1.1. カレーを作るエントロピー

もし何も情報を知らずにカレーを作るとしたら、どの具材を使うべきか、調理手順、スパイスの組み合わせなど、いろいろな不確実性があります。これはエントロピーが高い状態です。

1.1.2. 条件付きエントロピー(レシピを知っている場合)

もしレシピを知っているとしたら、具材やスパイスの選び方、調理手順について多くの情報が与えられます。そのため、情報量は減ります。

したがって、レシピを知ることでカレー作りの手順は大まかに決まりますが、まだあなたが判断しなければならない要素が残ります。この「まだ残された不確実性」が条件付きエントロピーです。

2. 条件付きエントロピーの性質

はるか
はるか
そういえば、条件付きエントロピーって常にゼロ以上?
ふゅか
ふゅか
そうそう!それはエントロピーが常に非負だから、条件付きエントロピーも同じようにゼロ以上になるのよ。

2.1. 非負性

\[ H(Y|X) \geq 0 \]

エントロピー自体が常に非負であることと同様に、条件付きエントロピーも非負です。

条件付きエントロピーは次のように定義されます。
\[ H(Y|X) = - \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) \log_2 P(y|x) \]

ここで、確率 \( P(y|x) \) は \( 0 \leq P(y|x) \leq 1 \) を満たし、\(\log_2 P(y|x)\) は負または 0 です。よって \(-\log_2 P(y|x) \geq 0\) であり、\(P(x, y) \geq 0\) なので、条件付きエントロピー全体も非負になります。
\[ H(Y|X) \geq 0 \]

2.2. 結合エントロピーとの関係

結合エントロピーは、条件付きエントロピーを分割する形で表すことができます。

\[ H(X, Y) = H(X) + H(Y|X) \]

同時確率 \( P(x, y) \) は条件付き確率に分解できます。

\[ P(x, y) = P(x) P(y|x) \]

これを結合エントロピーに代入すると、

\[ H(X, Y) = - \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) \log_2 (P(x) P(y|x)) \]

対数の性質により、\(\log_2 (P(x) P(y|x)) = \log_2 P(x) + \log_2 P(y|x)\) となるため、

\[ \begin{align*}H(X, Y) &= - \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) (\log_2 P(x) + \log_2 P(y|x)) \\ &= - \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) \log_2 P(x) - \sum_{x \in X} \sum_{y \in Y} P(x, y) \log_2 P(y|x) \end{align*} \]

ここで、\(\sum_{y \in Y} P(x, y) = P(x)\) を用いると、

\[ H(X, Y) = - \sum_{x \in\mathcal X} P(x) \log_2 P(x) - \sum_{x \in\mathcal X} \sum_{y \in\mathcal Y} P(x, y) \log_2 P(y|x) \]

第一項は \( H(X) \) であり、第二項は条件付きエントロピー \( H(Y|X) \) なので、

\[ H(X, Y) = H(X) + H(Y|X) \]

2.3. 条件付きエントロピーの等式

一般的には、\( H(Y|X) \neq H(X|Y) \) です。しかし、平均情報量を用いると次の関係が成り立ちます。

\[ H(Y|X) + H(X) = H(X|Y) + H(Y) \]

$H(X, Y) = H(X) + H(Y|X)$より、

$$H(Y,X) = H(Y)+ H(X|Y)$$

ここで、$H(X, Y)=H(Y,X)$より、

\[ H(Y|X) + H(X) = H(X|Y) + H(Y) \]

2.4. 条件付きエントロピーとエントロピーの関係

\[ H(Y|X) \leq H(Y) \]

これは、\( X \) の情報を知ることによって、\( Y \) の情報量が減少することを意味します。

まず、この等式を利用して \( H(Y|X) \) を表現します。

\[ H(Y|X) = H(X|Y) + H(Y) - H(X) \]

ここで、相互情報量 \( I(X;Y) \) を利用します。

\[ I(X;Y) = H(X) - H(X|Y) \]

したがって、\( H(X|Y) = H(X) - I(X;Y) \) と書けます。これを先ほどの式に代入すると、

\[ \begin{align*} H(Y|X) &= (H(X) - I(X;Y)) + H(Y) - H(X) \\ &= H(Y) - I(X;Y) \end{align*} \]

相互情報量は常に非負であるので

\[ I(X;Y) \geq 0 \]

したがって、

\[ H(Y|X) = H(Y) - I(X;Y) \leq H(Y) \]

ふゅか
ふゅか
条件付きエントロピーはエントロピーより小さくなるんだ。これは、情報 \(X\) を知ることで \(Y\) の不確実性が減るからなの。
はるか
はるか
\(H(Y|X) \leq H(Y)\) というわけか。相互情報量 \(I(X;Y)\) も関係してくる。

2.5. 等式成立条件

もし \( Y \) と \( X \) が独立であれば、

\[ H(Y|X) = H(Y)\]

\( X \) の情報は \( Y \) の不確実性を減らすことができないことを意味します。

\( Y \) と \( X \) が独立である場合、条件付き確率は次のようになります。

\[ P(y|x) = P(y) \]

条件付きエントロピーに代入すると、
\[ H(Y|X) = - \sum_{x \in X} \sum_{y \in Y} P(x, y) \log_2 P(y) \]

ここで、\(P(x, y) = P(x)P(y)\) を用いると、

\[ H(Y|X) = - \sum_{y \in Y} P(y) \log_2 P(y) \sum_{x \in X} P(x) = H(Y) \]

となります。よって、独立である場合に条件付きエントロピーが元のエントロピーに等しくなります。

逆に、条件付きエントロピーが \( H(Y|X) = H(Y) \) であるとすると、\( P(y|x) = P(y) \) が成り立つため、\( X \) と \( Y \) は独立であることがわかります。

はるか
はるか
もし \(X\) と \(Y\) が独立だったら、条件付きエントロピーは元のエントロピーと同じになる
ふゅか
ふゅか
独立だと、情報 \(X\) があっても \(Y\) の不確実性は変わらないから、\(H(Y|X) = H(Y)\) になるのよ。

3. 条件付きエントロピーの例題

ある企業のサブスクリプションにはA, Bの2種類のバージョンがあります。

  • 顧客がAのバージョンを選ぶ確率は0.6、Bのバージョンを選ぶ確率は0.4です。
  • それぞれのバージョンで不具合が発生する確率は、バージョンAの場合は0.2、バージョンBの場合は0.3です。

条件付きエントロピー \( H(Y|X) \) を求めなさい。ただし、 \(X\) は製品のバージョン (AまたはB)、 \(Y\) は不具合の有無とします。

各バージョンでの \( H(Y|X = x) \) を求める。

バージョンAの場合

\[\begin{align*} H(Y|X = A) &= -[P(Y = \text{不具合}|X = A) \log_2 P(Y = \text{不具合}|X = A) + P(Y = \text{不具合なし}|X = A) \log_2 P(Y = \text{不具合なし}|X = A)] \\ &= -[0.2 \log_2 0.2 + 0.8 \log_2 0.8] \approx 0.7219 \end{align*}\]

バージョンBの場合

\[\begin{align*} H(Y|X = B) &= -[P(Y = \text{不具合}|X = B) \log_2 P(Y = \text{不具合}|X = B) + P(Y = \text{不具合なし}|X = B) \log_2 P(Y = \text{不具合なし}|X = B)] \\ &= -[0.3 \log_2 0.3 + 0.7 \log_2 0.7] \approx 0.8813 \end{align*} \]

条件付きエントロピー \( H(Y|X) \) を求める。

\[ H(Y|X) = P(X = A) H(Y|X = A) + P(X = B) H(Y|X = B) \]

\[ = 0.6 \times H(Y|X = A) + 0.4 \times H(Y|X = B) \]

数値を代入して計算

\[ H(Y|X) = 0.6 \times 0.7219 + 0.4 \times 0.8813 \approx 0.7857 \]

条件付きエントロピー \( H(Y|X) \) は約 0.7857 です。

PR