はるか
ふゅか
うん、いいね!平均情報量って、情報量の不確実性を測るものだから、期待値を利用するんだよ!
1. 平均情報量
平均情報量とは、ある情報源から発せられるメッセージの平均的な情報量を指します。シャノンの情報理論では、これはエントロピーと呼ばれ、情報源が発生する各メッセージの発生確率を用いて計算されます。
エントロピー
H(X) は次の式で定義されます。
H(X)=−i∑p(xi)log2p(xi)
ここで、
- X は情報源の確率変数を表します。
- xi は情報源から出る可能性のあるメッセージです。
- p(xi) はxi が発生する確率です。
- エントロピーは情報量の期待値になります。
エントロピーが高いほど、その情報源から得られる情報の不確実性が高く、逆にエントロピーが低いほど、情報の不確実性が低いことを意味します。
また、次のように書かれることもあります。
確率変数
Xに対して、エントロピー
H(X)は
H(X)=−x∈X∑p(x)log2p(x)
Xは、X 取り得る値の集合です。
情報量と期待値を用いて表すと、
確率変数
Xが、確率分布Pに従うとき、
確率質量関数を
p(x)とすると、
H(X)=EP[I(X)]=−x∈X∑p(x)log2p(x)
ここで、情報量I(x)=−log2p(x)となります。
2. 平均情報量の性質
2.1. 情報源が2つの場合
情報源が二つの場合、
2値エントロピー関数で表すことができる。
H(X)=−p1log2p1−(1−p1)log2(1−p1)
情報源が2つの場合の平均情報量(エントロピー)を計算するには、それぞれの情報源が持つ確率と、それに対応する情報量を使います。情報源 X が2つの可能性 x1 と x2 を持ち、それぞれの確率を P(x1)=p1 と P(x2)=p2 とします。
エントロピー H(X) は次の式で計算されます。
H(X)=−i=1∑2pilog2pi
具体的には、
H(X)=−(p1log2p1+p2log2p2)
ここで、 log2 は2を底とした対数です。p2=1−p1 と置けるので
H(X)=−p1log2p1−(1−p1)log2(1−p1)
この式で p1 のみを用いてエントロピーを表現することができます。この形は、2値エントロピー関数と呼ばれます。
2.2. エントロピーが0になる場合
エントロピー(平均情報量)が0になる場合とは、確率変数が常に同じ結果をとるとき、つまり不確実性が全くない場合です。
はるか
ふゅか
あ、あるよ!確率変数が常に同じ結果を取る場合、つまり「確実にこれが起きる」って状態だとエントロピーは0になるの。例えば、サイコロで必ず6が出る場合、他の選択肢がないから情報の不確実性はゼロってわけ。
確率変数 X が取り得る値が一つしかない、または一つの値を100%の確率でとる場合、エントロピーは0になります。例えば、
P(X=x1)=1
のとき、エントロピー H(X) は次のように計算されます。
H(X)=−i∑P(xi)log2P(xi)=−P(x1)log2P(x1)=−1log21=0
この場合、情報の不確実性が全くないため、新たな情報を得る必要がありません。したがって、エントロピーが0となります。
xlogxのx→0極限が0になるので、P(xi)=0のときの項は0として計算します。
2.3. エントロピーの非負性
エントロピーは非負である。
H(X)≥0
確率 p(xi) の性質により、0≤p(xi)≤1 です。これにより、対数の性質 log2p(xi)≤0 (p(xi) が1以下であるため)を使うと、各項 −p(xi)log2p(xi) について次のことが言えます。
- p(xi)=0 の場合、p(xi)log2p(xi) の値を取りませんが、xlogxの極限を利用するとこの項は 0 になります。
- p(xi)>0 の場合、log2p(xi) は負の値なので、−p(xi)log2p(xi)≥0。
したがって、各項 −p(xi)log2p(xi) は非負です。
エントロピー H(X) は上記の各項の和であるから
H(X)=−i=1∑np(xi)log2p(xi)≥0
ここで、全ての −p(xi)logp(xi) が非負であるため、それらの和も非負になります。
3. 例題
3.1. 例題1:サイコロのエントロピー
通常の6面サイコロを考えます。このサイコロはそれぞれの面に1から6の数字が書かれており、公平であると仮定します。この場合、それぞれの面が出る確率は等しい。
それぞれの面が出る確率P(X)は次のようになります。
- P(1)=61
- P(2)=61
- P(3)=61
- P(4)=61
- P(5)=61
- P(6)=61
エントロピー H(X) は以下の式で計算されます。
H(X)=−i=1∑nP(xi)log2P(xi)
この場合、サイコロのエントロピーは次のように計算されます。
H(X)=−(61log261+61log261+61log261+61log261+61log261+61log261)
H(X)=−6×61log261
H(X)=−log261
H(X)=log26
H(X)≈2.585 bits
このサイコロの場合、エントロピーは約2.585ビットとなります。
3.2. 例題2:コイントスのエントロピー
1枚のコインを投げるとき、表が出る確率と裏が出る確率はそれぞれ
21 です。このコインの裏表に関する平均情報量(エントロピー)を計算してください。
コインの表と裏の確率はそれぞれ P(表)=21 と P(裏)=21 です。エントロピーの式に代入すると、
H(X)=−(21log221+21log221)
log221=−1より、
H(X)=−(21×(−1)+21×(−1))
H(X)=−(−21−21)=1
したがって、このコイントスの平均情報量(エントロピー)は 1 ビットです。