更新:2024/09/28

平均情報量(エントロピー)の性質・例題について

はるか
はるか
今日のテーマは平均情報量。
ふゅか
ふゅか
うん、いいね!平均情報量って、情報量の不確実性を測るものだから、期待値を利用するんだよ!

1. 平均情報量

平均情報量とは、ある情報源から発せられるメッセージの平均的な情報量を指します。シャノンの情報理論では、これはエントロピーと呼ばれ、情報源が発生する各メッセージの発生確率を用いて計算されます。

エントロピー H(X) H(X) は次の式で定義されます。

H(X)=ip(xi)log2p(xi) H(X) = - \sum_{i} p(x_i) \log_2 p(x_i)

ここで、

  • X X は情報源の確率変数を表します。
  • xi x_i は情報源から出る可能性のあるメッセージです。
  • p(xi) p(x_i) xi x_i が発生する確率です。
  • エントロピーは情報量期待値になります。

エントロピーが高いほど、その情報源から得られる情報の不確実性が高く、逆にエントロピーが低いほど、情報の不確実性が低いことを意味します。

また、次のように書かれることもあります。

確率変数XXに対して、エントロピーH(X)H(X)

H(X)=xXp(x)log2p(x) H(X) = - \sum_{x \in \mathcal X} p(x) \log_2 p(x)

X\mathcal Xは、XX 取り得る値の集合です。

情報量期待値を用いて表すと、

確率変数XXが、確率分布Pに従うとき、確率質量関数p(x)p(x)とすると、

H(X)=EP[I(X)]=xXp(x)log2p(x) H(X) = \mathbb E_{P}[I(X)]= - \sum_{x \in \mathcal X} p(x) \log_2 p(x)

ここで、情報量I(x)=log2p(x)I(x)= - \log_2 p(x)となります。

2. 平均情報量の性質

2.1. 情報源が2つの場合

情報源が二つの場合、2値エントロピー関数で表すことができる。

H(X)=p1log2p1(1p1)log2(1p1)H(X) = - p_1 \log_2 p_1 - (1 - p_1) \log_2 (1 - p_1)

情報源が2つの場合の平均情報量(エントロピー)を計算するには、それぞれの情報源が持つ確率と、それに対応する情報量を使います。情報源 X X が2つの可能性 x1 x_1 x2 x_2 を持ち、それぞれの確率を P(x1)=p1 P(x_1) = p_1 P(x2)=p2 P(x_2) = p_2 とします。

エントロピー H(X) H(X) は次の式で計算されます。

H(X)=i=12pilog2pi H(X) = - \sum_{i=1}^{2} p_i \log_2 p_i

具体的には、

H(X)=(p1log2p1+p2log2p2) H(X) = - (p_1 \log_2 p_1 + p_2 \log_2 p_2)

ここで、 log2 \log_2 は2を底とした対数です。p2=1p1 p_2 = 1 - p_1 と置けるので

H(X)=p1log2p1(1p1)log2(1p1)H(X) = - p_1 \log_2 p_1 - (1 - p_1) \log_2 (1 - p_1)

この式で p1 p_1 のみを用いてエントロピーを表現することができます。この形は、2値エントロピー関数と呼ばれます。

2.2. エントロピーが0になる場合

エントロピー(平均情報量)が0になる場合とは、確率変数が常に同じ結果をとるとき、つまり不確実性が全くない場合です。
はるか
はるか
ところで、エントロピーが0になる場合ってある?
ふゅか
ふゅか
あ、あるよ!確率変数が常に同じ結果を取る場合、つまり「確実にこれが起きる」って状態だとエントロピーは0になるの。例えば、サイコロで必ず6が出る場合、他の選択肢がないから情報の不確実性はゼロってわけ。

確率変数 X X が取り得る値が一つしかない、または一つの値を100%の確率でとる場合、エントロピーは0になります。例えば、
P(X=x1)=1 P(X = x_1) = 1

のとき、エントロピー H(X) H(X) は次のように計算されます。

H(X)=iP(xi)log2P(xi)=P(x1)log2P(x1)=1log21=0 H(X) = - \sum_{i} P(x_i) \log_2 P(x_i) = - P(x_1) \log_2 P(x_1) = - 1 \log_2 1 = 0

この場合、情報の不確実性が全くないため、新たな情報を得る必要がありません。したがって、エントロピーが0となります。

xlogxx0x\to 0極限が0になるので、P(xi)=0P(x_i)=0のときの項は0として計算します。

2.3. エントロピーの非負性

エントロピーは非負である。

H(X)0 H(X) \geq 0

確率 p(xi) p(x_i) の性質により、0p(xi)1 0 \leq p(x_i) \leq 1 です。これにより、対数の性質 log2p(xi)0 \log_2 p(x_i) \leq 0 p(xi) p(x_i) が1以下であるため)を使うと、各項 p(xi)log2p(xi) -p(x_i) \log_2 p(x_i) について次のことが言えます。

  • p(xi)=0 p(x_i) = 0 の場合、p(xi)log2p(xi) p(x_i) \log_2 p(x_i) の値を取りませんが、xlogxの極限を利用するとこの項は 0 になります。
  • p(xi)>0 p(x_i) > 0 の場合、log2p(xi) \log_2 p(x_i) は負の値なので、p(xi)log2p(xi)0 -p(x_i) \log_2 p(x_i) \geq 0

したがって、各項 p(xi)log2p(xi) -p(x_i) \log_2 p(x_i) は非負です。

エントロピー H(X) H(X) は上記の各項の和であるから

H(X)=i=1np(xi)log2p(xi)0 H(X) = -\sum_{i=1}^n p(x_i) \log_2 p(x_i) \geq 0

ここで、全ての p(xi)logp(xi) -p(x_i) \log p(x_i) が非負であるため、それらの和も非負になります。

3. 例題

3.1. 例題1:サイコロのエントロピー

通常の6面サイコロを考えます。このサイコロはそれぞれの面に1から6の数字が書かれており、公平であると仮定します。この場合、それぞれの面が出る確率は等しい。

それぞれの面が出る確率P(X)は次のようになります。

  • P(1)=16 P(1) = \frac{1}{6}
  • P(2)=16 P(2) = \frac{1}{6}
  • P(3)=16 P(3) = \frac{1}{6}
  • P(4)=16 P(4) = \frac{1}{6}
  • P(5)=16 P(5) = \frac{1}{6}
  • P(6)=16 P(6) = \frac{1}{6}

エントロピー H(X) H(X) は以下の式で計算されます。

H(X)=i=1nP(xi)log2P(xi) H(X) = - \sum_{i=1}^{n} P(x_i) \log_2 P(x_i)

この場合、サイコロのエントロピーは次のように計算されます。

H(X)=(16log216+16log216+16log216+16log216+16log216+16log216) H(X) = - \left( \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} + \frac{1}{6} \log_2 \frac{1}{6} \right)

H(X)=6×16log216 H(X) = - 6 \times \frac{1}{6} \log_2 \frac{1}{6}

H(X)=log216 H(X) = - \log_2 \frac{1}{6}

H(X)=log26 H(X) = \log_2 6

H(X)2.585 bits H(X) \approx 2.585 \text{ bits}

このサイコロの場合、エントロピーは約2.585ビットとなります。

3.2. 例題2:コイントスのエントロピー

1枚のコインを投げるとき、表が出る確率と裏が出る確率はそれぞれ 12 \frac{1}{2} です。このコインの裏表に関する平均情報量(エントロピー)を計算してください。

コインの表と裏の確率はそれぞれ P()=12 P(\text{表}) = \frac{1}{2} P()=12 P(\text{裏}) = \frac{1}{2} です。エントロピーの式に代入すると、

H(X)=(12log212+12log212) H(X) = - \left( \frac{1}{2} \log_2 \frac{1}{2} + \frac{1}{2} \log_2 \frac{1}{2} \right)

log212=1 \log_2 \frac{1}{2} = -1 より、

H(X)=(12×(1)+12×(1)) H(X) = - \left( \frac{1}{2} \times (-1) + \frac{1}{2} \times (-1) \right)

H(X)=(1212)=1 H(X) = - \left( -\frac{1}{2} - \frac{1}{2} \right) = 1

したがって、このコイントスの平均情報量(エントロピー)は 1 1 ビットです。

PR