平均情報量(エントロピー)の性質・例題について



1. 平均情報量
平均情報量とは、ある情報源から発せられるメッセージの平均的な情報量を指します。シャノンの情報理論では、これはエントロピーと呼ばれ、情報源が発生する各メッセージの発生確率を用いて計算されます。
エントロピーが高いほど、その情報源から得られる情報の不確実性が高く、逆にエントロピーが低いほど、情報の不確実性が低いことを意味します。
また、次のように書かれることもあります。
\[ H(X) = - \sum_{x \in \mathcal X} p(x) \log_2 p(x) \]
$\mathcal X$は、\(X\) 取り得る値の集合です。
2. 平均情報量の性質
2.1. 情報源が2つの場合
\[H(X) = - p_1 \log_2 p_1 - (1 - p_1) \log_2 (1 - p_1)\]
情報源が2つの場合の平均情報量(エントロピー)を計算するには、それぞれの情報源が持つ確率と、それに対応する情報量を使います。情報源 \( X \) が2つの可能性 \( x_1 \) と \( x_2 \) を持ち、それぞれの確率を \( P(x_1) = p_1 \) と \( P(x_2) = p_2 \) とします。
エントロピー \( H(X) \) は次の式で計算されます。
\[ H(X) = - \sum_{i=1}^{2} p_i \log_2 p_i \]
具体的には、
\[ H(X) = - (p_1 \log_2 p_1 + p_2 \log_2 p_2) \]
ここで、 \( \log_2 \) は2を底とした対数です。\( p_2 = 1 - p_1 \) と置けるので
\[H(X) = - p_1 \log_2 p_1 - (1 - p_1) \log_2 (1 - p_1)\]
この式で \( p_1 \) のみを用いてエントロピーを表現することができます。この形は、2値エントロピー関数と呼ばれます。
2.2. エントロピーが0になる場合


確率変数 \( X \) が取り得る値が一つしかない、または一つの値を100%の確率でとる場合、エントロピーは0になります。例えば、
\[
P(X = x_1) = 1
\]
のとき、エントロピー \( H(X) \) は次のように計算されます。
\[ H(X) = - \sum_{i} P(x_i) \log_2 P(x_i) = - P(x_1) \log_2 P(x_1) = - 1 \log_2 1 = 0 \]
この場合、情報の不確実性が全くないため、新たな情報を得る必要がありません。したがって、エントロピーが0となります。
xlogxの$x\to 0$極限が0になるので、$P(x_i)=0$のときの項は0として計算します。
2.3. エントロピーの非負性
\[ H(X) \geq 0 \]
確率 \( p(x_i) \) の性質により、\( 0 \leq p(x_i) \leq 1 \) です。これにより、対数の性質 \( \log_2 p(x_i) \leq 0 \) (\( p(x_i) \) が1以下であるため)を使うと、各項 \( -p(x_i) \log_2 p(x_i) \) について次のことが言えます。
- \( p(x_i) = 0 \) の場合、\( p(x_i) \log_2 p(x_i) \) の値を取りませんが、xlogxの極限を利用するとこの項は 0 になります。
- \( p(x_i) > 0 \) の場合、\( \log_2 p(x_i) \) は負の値なので、\( -p(x_i) \log_2 p(x_i) \geq 0 \)。
したがって、各項 \( -p(x_i) \log_2 p(x_i) \) は非負です。
エントロピー \( H(X) \) は上記の各項の和であるから
\[ H(X) = -\sum_{i=1}^n p(x_i) \log_2 p(x_i) \geq 0 \]
ここで、全ての \( -p(x_i) \log p(x_i) \) が非負であるため、それらの和も非負になります。
3. 例題
3.1. 例題1:サイコロのエントロピー
それぞれの面が出る確率P(X)は次のようになります。
- \( P(1) = \frac{1}{6} \)
- \( P(2) = \frac{1}{6} \)
- \( P(3) = \frac{1}{6} \)
- \( P(4) = \frac{1}{6} \)
- \( P(5) = \frac{1}{6} \)
- \( P(6) = \frac{1}{6} \)
エントロピー \( H(X) \) は以下の式で計算されます。
\[ H(X) = - \sum_{i=1}^{n} P(x_i) \log_2 P(x_i) \]
この場合、サイコロのエントロピーは次のように計算されます。
\[ H(X) = - \left( \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} \right) \]
\[ H(X) = - 6 \times \frac{1}{6} \log_2 \frac{1}{6} \]
\[ H(X) = - \log_2 \frac{1}{6} \]
\[ H(X) = \log_2 6 \]
\[ H(X) \approx 2.585 \text{ bits} \]
このサイコロの場合、エントロピーは約2.585ビットとなります。
3.2. 例題2:コイントスのエントロピー
コインの表と裏の確率はそれぞれ \( P(\text{表}) = \frac{1}{2} \) と \( P(\text{裏}) = \frac{1}{2} \) です。エントロピーの式に代入すると、
\[ H(X) = - \left( \frac{1}{2} \log_2 \frac{1}{2} + \frac{1}{2} \log_2 \frac{1}{2} \right) \]
\( \log_2 \frac{1}{2} = -1 \)より、
\[ H(X) = - \left( \frac{1}{2} \times (-1) + \frac{1}{2} \times (-1) \right) \]
\[ H(X) = - \left( -\frac{1}{2} - \frac{1}{2} \right) = 1 \]
したがって、このコイントスの平均情報量(エントロピー)は \( 1 \) ビットです。