更新:2024/09/28

情報量の定義・具体例・性質・計算問題について

はるか
はるか
情報量、驚きの度合いを数値化したものだね。
ふゅか
ふゅか
そうそう!「確率が低いと驚きが大きい」って感じね。例えば、コインの裏表とかね。確率0.5なら、1ビット分の驚きだよね♪

1. 情報量とは

情報量(自己情報量)とは、ある出来事やメッセージがどれだけの「驚き」や「不確実性の減少」をもたらすかを表す量のことです。情報理論において、一般的には次のように計算されます。

\[ I(x) = - \log_2 P(x) \]

ここで、\( I(x) \) は出来事 \( x \) の情報量、\( P(x) \) はその出来事が起こる確率を表します。確率が低い(つまり、あまり起こらない)出来事ほど、それが起こったときの情報量は大きくなり、逆に、確率が高い(よく起こる)出来事は、情報量が小さくなります。

1.1. 例

例えば、コインを投げたときに表が出る確率が \( P(表) = 0.5 \) だとすると、表が出た時の情報量は次のように計算されます。

\[ I(表) = - \log_2(0.5) = 1 \, \text{bit} \]

一方、非常に稀な出来事で確率が \( P(x) = 0.01 \) だとすると、情報量は次のようになります。

\[ I(x) = - \log_2(0.01) \approx 6.64 \, \text{bits} \]

はるか
はるか
稀な出来事ほど驚きが大きくなる。例えば、確率0.01の出来事だと…6.64ビットくらい。
ふゅか
ふゅか
システムのエラー発生確率が0.01なら…コインを投げたときよりも、驚きが大きいってことになるね!

2. 情報量の性質

2.1. 非負性

情報量 \( I(x) = - \log P(x) \) は常に非負の値を持ちます。これは、確率 \( P(x) \) が 0 と 1 の間の値であり、\( \log \) 関数がこの範囲では負の値を取らないためです。言い換えれば、どのような出来事でも、その情報量は 0 以上です。

\[ I(x) \geq 0 \]

もしある出来事が確実に起こる場合、\( P(x) = 1 \) であり、そのときの情報量は 0 になります。

ふゅか
ふゅか
情報量って非負性って言うけど、なんで必ず0以上なの?
はるか
はるか
簡単。情報量の計算式、\(-\log P(x)\) だから。確率が0と1の間なら、\(\log\)は負にならない。だから、情報量も0以上。

2.2. 加法性

複数の独立した出来事が起こる場合、その全体の情報量は各出来事の情報量の和になります。例えば、出来事 \( x \) と \( y \) が独立している場合、これらの同時発生の情報量は次のように表されます。

\[ \begin{align*} I(x, y) &= I(x) + I(y) \\ &= - \log_2 P(x) - \log_2 P(y) \\ &= - \log_2 \big(P(x) P(y)\big) \end{align*} \]

2.3. 確率が高い出来事ほど情報量は少ない

確率 \( P(x) \) が高い出来事ほど、それが起こったときの情報量は小さくなります。確率 \( P(x) \) が 1 に近づくと、情報量は 0 に近づき、確率が低いほど情報量は大きくなります。

\[ I(x) = - \log P(x) \]

これは、日常的に例えると、頻繁に起こる出来事はあまり驚きを与えないため、情報量が少ないという意味になります。

はるか
はるか
確率が高いほど情報量は少ない。
ふゅか
ふゅか
うん、よく起こることは驚きが少ないからね。確率が1に近づくと、情報量は0に近づくってことね!

3. 例題

3.1. 問題1

ある事象Aの発生確率が \( P(A) = \frac{1}{4} \) であるとします。この事象Aの自己情報量を計算しなさい。

事象Aの発生確率は \( P(A) = \frac{1}{4} \) です。自己情報量 \( I(A) \) は次の式で計算できます。

\[ I(A) = -\log_2 P(A) = -\log_2 \left(\frac{1}{4}\right) \]

\[ I(A) = -\log_2 2^{-2} = -(-2) = 2 \, \text{ビット} \]

したがって、事象Aの自己情報量は 2ビット です。

ふゅか
ふゅか
じゃあ、問題!事象Aの発生確率が1/4のときの自己情報量は?
はるか
はるか
\(I(A) = -\log_2 (1/4)\)。

3.2. 問題2

サイコロを1回振ったとき、出る目が1の確率は \( P(1) = \frac{1}{6} \) です。このとき、出る目が1である事象の自己情報量を計算しなさい。

サイコロを1回振ったとき、出る目が1の確率は \( P(1) = \frac{1}{6} \) です。自己情報量 \( I(1) \) は次の式で計算できます。

\[ I(1) = -\log_2 P(1) = -\log_2 \left(\frac{1}{6}\right) \]

\[ I(1) = -\log_2 \left(6^{-1}\right) = \log_2 6 \approx 2.585 \, \text{ビット} \]

したがって、出る目が1である事象の自己情報量は 約2.585ビット です。

3.3. 問題3

ある通信システムにおいて、エラーが発生する確率は \( P(\text{Error}) = 0.01 \) です。このエラー発生事象の自己情報量を計算しなさい。

エラーが発生する確率は \( P(\text{Error}) = 0.01 \) です。自己情報量 \( I(\text{Error}) \) は次の式で計算できます。

\[ I(\text{Error}) = -\log_2 P(\text{Error}) = -\log_2 (0.01) \]

\[ I(\text{Error}) = -\log_2 (10^{-2}) = 2 \log_2 10 \approx 6.644 \, \text{ビット} \]

したがって、エラー発生事象の自己情報量は 約6.644ビット です。

PR