更新:2024/09/28

平均情報量(エントロピー)の性質・例題について

はるか
はるか
今日のテーマは平均情報量。
ふゅか
ふゅか
うん、いいね!平均情報量って、情報量の不確実性を測るものだから、期待値を利用するんだよ!

1. 平均情報量

平均情報量とは、ある情報源から発せられるメッセージの平均的な情報量を指します。シャノンの情報理論では、これはエントロピーと呼ばれ、情報源が発生する各メッセージの発生確率を用いて計算されます。

エントロピー \( H(X) \) は次の式で定義されます。

\[ H(X) = - \sum_{i} p(x_i) \log_2 p(x_i) \]

ここで、

  • \( X \) は情報源の確率変数を表します。
  • \( x_i \) は情報源から出る可能性のあるメッセージです。
  • \( p(x_i) \) は\( x_i \) が発生する確率です。
  • エントロピーは情報量期待値になります。

エントロピーが高いほど、その情報源から得られる情報の不確実性が高く、逆にエントロピーが低いほど、情報の不確実性が低いことを意味します。

また、次のように書かれることもあります。

確率変数$X$に対して、エントロピー$H(X)$は

\[ H(X) = - \sum_{x \in \mathcal X} p(x) \log_2 p(x) \]

$\mathcal X$は、\(X\) 取り得る値の集合です。

情報量期待値を用いて表すと、

確率変数$X$が、確率分布Pに従うとき、確率質量関数を$p(x)$とすると、

\[ H(X) = \mathbb E_{P}[I(X)]= - \sum_{x \in \mathcal X} p(x) \log_2 p(x) \]

ここで、情報量$I(x)= - \log_2 p(x)$となります。

2. 平均情報量の性質

2.1. 情報源が2つの場合

情報源が二つの場合、2値エントロピー関数で表すことができる。

\[H(X) = - p_1 \log_2 p_1 - (1 - p_1) \log_2 (1 - p_1)\]

情報源が2つの場合の平均情報量(エントロピー)を計算するには、それぞれの情報源が持つ確率と、それに対応する情報量を使います。情報源 \( X \) が2つの可能性 \( x_1 \) と \( x_2 \) を持ち、それぞれの確率を \( P(x_1) = p_1 \) と \( P(x_2) = p_2 \) とします。

エントロピー \( H(X) \) は次の式で計算されます。

\[ H(X) = - \sum_{i=1}^{2} p_i \log_2 p_i \]

具体的には、

\[ H(X) = - (p_1 \log_2 p_1 + p_2 \log_2 p_2) \]

ここで、 \( \log_2 \) は2を底とした対数です。\( p_2 = 1 - p_1 \) と置けるので

\[H(X) = - p_1 \log_2 p_1 - (1 - p_1) \log_2 (1 - p_1)\]

この式で \( p_1 \) のみを用いてエントロピーを表現することができます。この形は、2値エントロピー関数と呼ばれます。

2.2. エントロピーが0になる場合

エントロピー(平均情報量)が0になる場合とは、確率変数が常に同じ結果をとるとき、つまり不確実性が全くない場合です。
はるか
はるか
ところで、エントロピーが0になる場合ってある?
ふゅか
ふゅか
あ、あるよ!確率変数が常に同じ結果を取る場合、つまり「確実にこれが起きる」って状態だとエントロピーは0になるの。例えば、サイコロで必ず6が出る場合、他の選択肢がないから情報の不確実性はゼロってわけ。

確率変数 \( X \) が取り得る値が一つしかない、または一つの値を100%の確率でとる場合、エントロピーは0になります。例えば、
\[ P(X = x_1) = 1 \]

のとき、エントロピー \( H(X) \) は次のように計算されます。

\[ H(X) = - \sum_{i} P(x_i) \log_2 P(x_i) = - P(x_1) \log_2 P(x_1) = - 1 \log_2 1 = 0 \]

この場合、情報の不確実性が全くないため、新たな情報を得る必要がありません。したがって、エントロピーが0となります。

xlogxの$x\to 0$極限が0になるので、$P(x_i)=0$のときの項は0として計算します。

2.3. エントロピーの非負性

エントロピーは非負である。

\[ H(X) \geq 0 \]

確率 \( p(x_i) \) の性質により、\( 0 \leq p(x_i) \leq 1 \) です。これにより、対数の性質 \( \log_2 p(x_i) \leq 0 \) (\( p(x_i) \) が1以下であるため)を使うと、各項 \( -p(x_i) \log_2 p(x_i) \) について次のことが言えます。

  • \( p(x_i) = 0 \) の場合、\( p(x_i) \log_2 p(x_i) \) の値を取りませんが、xlogxの極限を利用するとこの項は 0 になります。
  • \( p(x_i) > 0 \) の場合、\( \log_2 p(x_i) \) は負の値なので、\( -p(x_i) \log_2 p(x_i) \geq 0 \)。

したがって、各項 \( -p(x_i) \log_2 p(x_i) \) は非負です。

エントロピー \( H(X) \) は上記の各項の和であるから

\[ H(X) = -\sum_{i=1}^n p(x_i) \log_2 p(x_i) \geq 0 \]

ここで、全ての \( -p(x_i) \log p(x_i) \) が非負であるため、それらの和も非負になります。

3. 例題

3.1. 例題1:サイコロのエントロピー

通常の6面サイコロを考えます。このサイコロはそれぞれの面に1から6の数字が書かれており、公平であると仮定します。この場合、それぞれの面が出る確率は等しい。

それぞれの面が出る確率P(X)は次のようになります。

  • \( P(1) = \frac{1}{6} \)
  • \( P(2) = \frac{1}{6} \)
  • \( P(3) = \frac{1}{6} \)
  • \( P(4) = \frac{1}{6} \)
  • \( P(5) = \frac{1}{6} \)
  • \( P(6) = \frac{1}{6} \)

エントロピー \( H(X) \) は以下の式で計算されます。

\[ H(X) = - \sum_{i=1}^{n} P(x_i) \log_2 P(x_i) \]

この場合、サイコロのエントロピーは次のように計算されます。

\[ H(X) = - \left( \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} \right) \]

\[ H(X) = - 6 \times \frac{1}{6} \log_2 \frac{1}{6} \]

\[ H(X) = - \log_2 \frac{1}{6} \]

\[ H(X) = \log_2 6 \]

\[ H(X) \approx 2.585 \text{ bits} \]

このサイコロの場合、エントロピーは約2.585ビットとなります。

3.2. 例題2:コイントスのエントロピー

1枚のコインを投げるとき、表が出る確率と裏が出る確率はそれぞれ \( \frac{1}{2} \) です。このコインの裏表に関する平均情報量(エントロピー)を計算してください。

コインの表と裏の確率はそれぞれ \( P(\text{表}) = \frac{1}{2} \) と \( P(\text{裏}) = \frac{1}{2} \) です。エントロピーの式に代入すると、

\[ H(X) = - \left( \frac{1}{2} \log_2 \frac{1}{2} + \frac{1}{2} \log_2 \frac{1}{2} \right) \]

\( \log_2 \frac{1}{2} = -1 \)より、

\[ H(X) = - \left( \frac{1}{2} \times (-1) + \frac{1}{2} \times (-1) \right) \]

\[ H(X) = - \left( -\frac{1}{2} - \frac{1}{2} \right) = 1 \]

したがって、このコイントスの平均情報量(エントロピー)は \( 1 \) ビットです。

PR