相互情報量とは?意味と性質、具体例、例題について


1. 相互情報量とは
相互情報量が高いほど、二つの変数は強く関連していることを意味します。
\[ I(X; Y) = \sum_{x \in X} \sum_{y \in Y} P(x, y) \log \left( \frac{P(x, y)}{P(x) P(y)} \right) \]
ここで、
- \( P(x, y) \) は \( X \) と \( Y \) の同時確率分布です。
- \( P(x) \) と \( P(y) \) はそれぞれ \( X \) と \( Y \) の周辺確率分布です。
1.1. パスタの例
例えば「スパゲッティ」と「トマトソース」がよく一緒に使われるとします。この場合、パスタがスパゲッティならトマトソースである可能性が高い、という情報が得られます。同様に、「ラザニア」なら「ホワイトソースやミートソース」といった特定のソースが多いかもしれません。
すなわち、パスタの種類を知ることで、どのソースが選ばれるかの情報を予測する手がかりになります。これによって、相互情報量は「高く」なります。
2. 相互情報量の性質


2.1. 非負性
$$ I(X; Y) \geq 0 $$
相互情報量の定義は次の通りです。
\[ I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)p(y)} \]
これは二つの確率分布 \( p(x, y) \) と \( p(x)p(y) \) の KLダイバージェンス(相対エントロピー) となっています。
\[ I(X; Y) = D_{\mathrm{KL}}(p(X, Y) \parallel p(X)p(Y)) \]
KLダイバージェンスは常に 0 以上であるので、
\[ I(X; Y) \geq 0 \]
です。また、KLダイバージェンスが0になる場合は、\( p(x, y) = p(x)p(y) \) のときであるので、 \( X \) と \( Y \) が独立のときのみです。
2.2. 対称性
これは、どちらの変数を基準にしても、互いに持つ情報量は同じであることを意味します。
相互情報量の定義より、
\[ I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)p(y)} \]
\[ I(Y; X) = \sum_{x \in \mathcal{Y}} \sum_{y \in \mathcal{X}} p(y, x) \log \frac{p(y, x)}{p(y)p(x)} \]
ここで、$p(x,y)=p(y,x)$であるので、
$$I(X; Y)=I(Y; X)$$


2.3. 平均情報量(エントロピー)との関係
\[\begin{align*} I(X; Y) &= H(X) + H(Y) - H(X, Y)\\ &=H(X)-H(X|Y) \\ &=H(Y)-H(Y|X) \end{align*} \]
まず、相互情報量は
\[
I(X; Y) = \sum_{x \in \mathcal{X}} \sum_{y \in \mathcal{Y}} p(x, y) \log \frac{p(x, y)}{p(x)p(y)}
\]
この式は次のように変形できます。
\[ \begin{align*} I(X; Y) &= \sum_{x, y} p(x, y) \log p(x, y) - \sum_{x, y} p(x, y) \log (p(x)p(y)) \\ &= -H(X, Y) + \left( \sum_{x, y} p(x, y) \log p(x) + \sum_{x, y} p(x, y) \log p(y) \right) \\ &= -H(X, Y) + H(X) + H(Y) \end{align*} \]
結合エントロピー$H(X,Y)$は、条件付きエントロピー$H(X|Y)$を用いて次の形で表すことができます。
\[ H(X, Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)\]
したがって、
$$-H(X, Y) + H(X) + H(Y) = -H(X) -H(Y|X)+ H(X) + H(Y) =H(Y) -H(Y|X)$$
$$-H(X, Y) + H(X) + H(Y) = -H(Y) -H(X|Y)+ H(X) + H(Y) =H(X) -H(X|Y)$$
以上より、
\[\begin{align*} I(X; Y) &= H(X) + H(Y) - H(X, Y)\\ &=H(X)-H(X|Y) \\ &=H(Y)-H(Y|X) \end{align*} \]
3. 例題:雨が降ってきました
定義の確認 相互情報量は次の式で計算されます。 \[ I(X; Y) = \sum_{x \in X} \sum_{y \in Y} P(x, y) \log \frac{P(x, y)}{P(x) P(y)} \] ここで、雨を降ることを \( X = \text{雨} \)、傘を持つことを \( Y = \text{傘} \) とします。
同時確率の計算 の計算をします。
$$\begin{align*} P(\text{雨}, \text{傘}) &= P(\text{傘}|\text{雨}) \times P(\text{雨}) = 0.8 \times 0.3 = 0.24 \\ P(\text{雨}, \neg\text{傘}) &= P(\neg\text{傘}|\text{雨}) \times P(\text{雨}) = (1 - 0.8) \times 0.3 = 0.06 \\ P(\neg\text{雨}, \text{傘}) &= P(\text{傘}) - P(\text{雨}, \text{傘}) = 0.4 - 0.24 = 0.16 \\ P(\neg\text{雨}, \neg\text{傘}) &= 1 - (P(\text{雨}, \text{傘}) + P(\text{雨}, \neg\text{傘}) + P(\neg\text{雨}, \text{傘})) = 1 - (0.24 + 0.06 + 0.16) = 0.54 \end{align*}$$
相互情報量の計算 すると、
\[ I(\text{雨}; \text{傘}) = 0.24 \log_2 \left( \frac{0.24}{0.3 \times 0.4} \right) + 0.06 \log_2 \left( \frac{0.06}{0.3 \times 0.6} \right) + 0.16 \log_2 \left( \frac{0.16}{0.7 \times 0.4} \right) + 0.54 \log_2 \left( \frac{0.54}{0.7 \times 0.6} \right) \]
計算を進めると、約0.2115 になります。