更新:2024/09/28

相互情報量とは？意味と性質、具体例、例題について

$はるか$

はるか

相互情報量は、情報源同士の影響を測る指標。

1. 相互情報量とは
1.1. パスタの例
2. 相互情報量の性質
2.1. 非負性
2.2. 対称性
2.3. 平均情報量（エントロピー）との関係
3. 例題：雨が降ってきました

1. 相互情報量とは

相互情報量とは、二つの確率変数の間の依存関係を定量化する指標です。

相互情報量が高いほど、二つの変数は強く関連していることを意味します。

相互情報量 $ I(X; Y) $ は、以下のように定義されます。

\[ I(X; Y) = \sum_{x \in X} \sum_{y \in Y} P(x, y) \log \left( \frac{P(x, y)}{P(x) P(y)} \right) \]

ここで、

$ P(x, y) $ は $ X $ と $ Y $ の同時確率分布です。
$ P(x) $ と $ P(y) $ はそれぞれ $ X $ と $ Y $ の周辺確率分布です。

1.1. パスタの例

例えば「スパゲッティ」と「トマトソース」がよく一緒に使われるとします。この場合、パスタがスパゲッティならトマトソースである可能性が高い、という情報が得られます。同様に、「ラザニア」なら「ホワイトソースやミートソース」といった特定のソースが多いかもしれません。

すなわち、パスタの種類を知ることで、どのソースが選ばれるかの情報を予測する手がかりになります。これによって、相互情報量は「高く」なります。

2. 相互情報量の性質

$ふゅか$

ふゅか

どうして相互情報量は常に非負になるのかしら？

$はるか$

はるか

相互情報量がKLダイバージェンスで表すことができるから。KLダイバージェンスは必ず0以上になる。だから、相互情報量も常に0以上。

2.1. 非負性

相互情報量は常に非負であり、

$$ I(X; Y) \geq 0 $$

相互情報量の定義は次の通りです。

\[ I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)p(y)} \]

これは二つの確率分布 $ p(x, y) $ と $ p(x)p(y) $ の KLダイバージェンス(相対エントロピー) となっています。

\[ I(X; Y) = D_{\mathrm{KL}}(p(X, Y) \parallel p(X)p(Y)) \]

KLダイバージェンスは常に 0 以上であるので、

\[ I(X; Y) \geq 0 \]

です。また、KLダイバージェンスが０になる場合は、$ p(x, y) = p(x)p(y) $ のときであるので、 $ X $ と $ Y $ が独立のときのみです。

2.2. 対称性

$$ I(X; Y) = I(Y; X) $$

これは、どちらの変数を基準にしても、互いに持つ情報量は同じであることを意味します。

相互情報量の定義より、

\[ I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)p(y)} \]

\[ I(Y; X) = \sum_{x \in \mathcal{Y}} \sum_{y \in \mathcal{X}} p(y, x) \log \frac{p(y, x)}{p(y)p(x)} \]

ここで、$p(x,y)=p(y,x)$であるので、

$$I(X; Y)=I(Y; X)$$

$はるか$

はるか

対称性もある。

$ふゅか$

ふゅか

どっちを基準にしても、持っている情報は変わらないもんね！

2.3. 平均情報量（エントロピー）との関係

相互情報量は平均情報量（エントロピー）と結合エントロピー、条件付きエントロピーを用いて次のように表せます。
\[\begin{align*} I(X; Y) &= H(X) + H(Y) – H(X, Y)\\ &=H(X)-H(X|Y) \\ &=H(Y)-H(Y|X) \end{align*} \]

まず、相互情報量は
\[ I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)p(y)} \]

この式は次のように変形できます。

\[ \begin{align*} I(X; Y) &= \sum_{x, y} p(x, y) \log p(x, y) – \sum_{x, y} p(x, y) \log (p(x)p(y)) \\ &= -H(X, Y) + \left( \sum_{x, y} p(x, y) \log p(x) + \sum_{x, y} p(x, y) \log p(y) \right) \\ &= -H(X, Y) + H(X) + H(Y) \end{align*} \]

結合エントロピー$H(X,Y)$は、条件付きエントロピー$H(X|Y)$を用いて次の形で表すことができます。

\[ H(X, Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)\]

したがって、

$$-H(X, Y) + H(X) + H(Y) = -H(X) -H(Y|X)+ H(X) + H(Y) =H(Y) -H(Y|X)$$

$$-H(X, Y) + H(X) + H(Y) = -H(Y) -H(X|Y)+ H(X) + H(Y) =H(X) -H(X|Y)$$

以上より、

\[\begin{align*} I(X; Y) &= H(X) + H(Y) – H(X, Y)\\ &=H(X)-H(X|Y) \\ &=H(Y)-H(Y|X) \end{align*} \]

3. 例題：雨が降ってきました

ある街で雨が降る確率を $ P(\text{雨}) = 0.3 $ とし、傘を持って出かける確率を $ P(\text{傘}) = 0.4 $ とします。また、雨が降る日に傘を持って出かける条件付き確率を $ P(\text{傘}|\text{雨}) = 0.8 $ とします。このとき、雨と傘の相互情報量 $ I(\text{雨}; \text{傘}) $ を求めなさい。

定義の確認相互情報量は次の式で計算されます。 \[ I(X; Y) = \sum_{x \in X} \sum_{y \in Y} P(x, y) \log \frac{P(x, y)}{P(x) P(y)} \] ここで、雨を降ることを $ X = \text{雨} $、傘を持つことを $ Y = \text{傘} $ とします。

同時確率の計算の計算をします。

$$\begin{align*} P(\text{雨}, \text{傘}) &= P(\text{傘}|\text{雨}) \times P(\text{雨}) = 0.8 \times 0.3 = 0.24 \\ P(\text{雨}, \neg\text{傘}) &= P(\neg\text{傘}|\text{雨}) \times P(\text{雨}) = (1 – 0.8) \times 0.3 = 0.06 \\ P(\neg\text{雨}, \text{傘}) &= P(\text{傘}) – P(\text{雨}, \text{傘}) = 0.4 – 0.24 = 0.16 \\ P(\neg\text{雨}, \neg\text{傘}) &= 1 – (P(\text{雨}, \text{傘}) + P(\text{雨}, \neg\text{傘}) + P(\neg\text{雨}, \text{傘})) = 1 – (0.24 + 0.06 + 0.16) = 0.54 \end{align*}$$

相互情報量の計算すると、

\[ I(\text{雨}; \text{傘}) = 0.24 \log_2 \left( \frac{0.24}{0.3 \times 0.4} \right) + 0.06 \log_2 \left( \frac{0.06}{0.3 \times 0.6} \right) + 0.16 \log_2 \left( \frac{0.16}{0.7 \times 0.4} \right) + 0.54 \log_2 \left( \frac{0.54}{0.7 \times 0.6} \right) \]

計算を進めると、約0.2115 になります。