更新:2024/09/28

相互情報量とは?意味と性質、具体例、例題について

はるか
はるか
相互情報量は、情報源同士の影響を測る指標。

1. 相互情報量とは

相互情報量とは、二つの確率変数の間の依存関係を定量化する指標です。

相互情報量が高いほど、二つの変数は強く関連していることを意味します。

相互情報量 \( I(X; Y) \) は、以下のように定義されます。

\[ I(X; Y) = \sum_{x \in X} \sum_{y \in Y} P(x, y) \log \left( \frac{P(x, y)}{P(x) P(y)} \right) \]

ここで、

  • \( P(x, y) \) は \( X \) と \( Y \) の同時確率分布です。
  • \( P(x) \) と \( P(y) \) はそれぞれ \( X \) と \( Y \) の周辺確率分布です。

1.1. パスタの例

例えば「スパゲッティ」と「トマトソース」がよく一緒に使われるとします。この場合、パスタがスパゲッティならトマトソースである可能性が高い、という情報が得られます。同様に、「ラザニア」なら「ホワイトソースやミートソース」といった特定のソースが多いかもしれません。

すなわち、パスタの種類を知ることで、どのソースが選ばれるかの情報を予測する手がかりになります。これによって、相互情報量は「高く」なります。

2. 相互情報量の性質

ふゅか
ふゅか
どうして相互情報量は常に非負になるのかしら?
はるか
はるか
相互情報量がKLダイバージェンスで表すことができるから。KLダイバージェンスは必ず0以上になる。だから、相互情報量も常に0以上。

2.1. 非負性

相互情報量は常に非負であり、

$$ I(X; Y) \geq 0 $$

相互情報量の定義は次の通りです。

\[ I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)p(y)} \]

これは二つの確率分布 \( p(x, y) \) と \( p(x)p(y) \) の KLダイバージェンス(相対エントロピー) となっています。

\[ I(X; Y) = D_{\mathrm{KL}}(p(X, Y) \parallel p(X)p(Y)) \]

KLダイバージェンスは常に 0 以上であるので、

\[ I(X; Y) \geq 0 \]

です。また、KLダイバージェンスが0になる場合は、\( p(x, y) = p(x)p(y) \) のときであるので、 \( X \) と \( Y \) が独立のときのみです。

2.2. 対称性

$$ I(X; Y) = I(Y; X) $$

これは、どちらの変数を基準にしても、互いに持つ情報量は同じであることを意味します。

相互情報量の定義より、

\[ I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)p(y)} \]

\[ I(Y; X) = \sum_{x \in \mathcal{Y}} \sum_{y \in \mathcal{X}} p(y, x) \log \frac{p(y, x)}{p(y)p(x)} \]

ここで、$p(x,y)=p(y,x)$であるので、

$$I(X; Y)=I(Y; X)$$

はるか
はるか
対称性もある。
ふゅか
ふゅか
どっちを基準にしても、持っている情報は変わらないもんね!

2.3. 平均情報量(エントロピー)との関係

相互情報量は平均情報量(エントロピー)結合エントロピー条件付きエントロピーを用いて次のように表せます。
\[\begin{align*} I(X; Y) &= H(X) + H(Y) - H(X, Y)\\ &=H(X)-H(X|Y) \\ &=H(Y)-H(Y|X) \end{align*} \]

まず、相互情報量は
\[ I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)p(y)} \]

この式は次のように変形できます。

\[ \begin{align*} I(X; Y) &= \sum_{x, y} p(x, y) \log p(x, y) - \sum_{x, y} p(x, y) \log (p(x)p(y)) \\ &= -H(X, Y) + \left( \sum_{x, y} p(x, y) \log p(x) + \sum_{x, y} p(x, y) \log p(y) \right) \\ &= -H(X, Y) + H(X) + H(Y) \end{align*} \]

結合エントロピー$H(X,Y)$は、条件付きエントロピー$H(X|Y)$を用いて次の形で表すことができます。

\[ H(X, Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)\]

したがって、

$$-H(X, Y) + H(X) + H(Y) = -H(X) -H(Y|X)+ H(X) + H(Y) =H(Y) -H(Y|X)$$

$$-H(X, Y) + H(X) + H(Y) = -H(Y) -H(X|Y)+ H(X) + H(Y) =H(X) -H(X|Y)$$

以上より、

\[\begin{align*} I(X; Y) &= H(X) + H(Y) - H(X, Y)\\ &=H(X)-H(X|Y) \\ &=H(Y)-H(Y|X) \end{align*} \]

3. 例題:雨が降ってきました

ある街で雨が降る確率を \( P(\text{雨}) = 0.3 \) とし、傘を持って出かける確率を \( P(\text{傘}) = 0.4 \) とします。また、雨が降る日に傘を持って出かける条件付き確率を \( P(\text{傘}|\text{雨}) = 0.8 \) とします。このとき、雨と傘の相互情報量 \( I(\text{雨}; \text{傘}) \) を求めなさい。

定義の確認 相互情報量は次の式で計算されます。 \[ I(X; Y) = \sum_{x \in X} \sum_{y \in Y} P(x, y) \log \frac{P(x, y)}{P(x) P(y)} \] ここで、雨を降ることを \( X = \text{雨} \)、傘を持つことを \( Y = \text{傘} \) とします。

同時確率の計算 の計算をします。

$$\begin{align*} P(\text{雨}, \text{傘}) &= P(\text{傘}|\text{雨}) \times P(\text{雨}) = 0.8 \times 0.3 = 0.24 \\ P(\text{雨}, \neg\text{傘}) &= P(\neg\text{傘}|\text{雨}) \times P(\text{雨}) = (1 - 0.8) \times 0.3 = 0.06 \\ P(\neg\text{雨}, \text{傘}) &= P(\text{傘}) - P(\text{雨}, \text{傘}) = 0.4 - 0.24 = 0.16 \\ P(\neg\text{雨}, \neg\text{傘}) &= 1 - (P(\text{雨}, \text{傘}) + P(\text{雨}, \neg\text{傘}) + P(\neg\text{雨}, \text{傘})) = 1 - (0.24 + 0.06 + 0.16) = 0.54 \end{align*}$$

相互情報量の計算 すると、

\[ I(\text{雨}; \text{傘}) = 0.24 \log_2 \left( \frac{0.24}{0.3 \times 0.4} \right) + 0.06 \log_2 \left( \frac{0.06}{0.3 \times 0.6} \right) + 0.16 \log_2 \left( \frac{0.16}{0.7 \times 0.4} \right) + 0.54 \log_2 \left( \frac{0.54}{0.7 \times 0.6} \right) \]

計算を進めると、約0.2115 になります。

 

PR