情報量の定義・具体例・性質・計算問題について



1. 情報量とは
\[ I(x) = - \log_2 P(x) \]
ここで、\( I(x) \) は出来事 \( x \) の情報量、\( P(x) \) はその出来事が起こる確率を表します。確率が低い(つまり、あまり起こらない)出来事ほど、それが起こったときの情報量は大きくなり、逆に、確率が高い(よく起こる)出来事は、情報量が小さくなります。
1.1. 例
例えば、コインを投げたときに表が出る確率が \( P(表) = 0.5 \) だとすると、表が出た時の情報量は次のように計算されます。
\[ I(表) = - \log_2(0.5) = 1 \, \text{bit} \]
一方、非常に稀な出来事で確率が \( P(x) = 0.01 \) だとすると、情報量は次のようになります。
\[ I(x) = - \log_2(0.01) \approx 6.64 \, \text{bits} \]


2. 情報量の性質
2.1. 非負性
情報量 \( I(x) = - \log P(x) \) は常に非負の値を持ちます。これは、確率 \( P(x) \) が 0 と 1 の間の値であり、\( \log \) 関数がこの範囲では負の値を取らないためです。言い換えれば、どのような出来事でも、その情報量は 0 以上です。
\[ I(x) \geq 0 \]
もしある出来事が確実に起こる場合、\( P(x) = 1 \) であり、そのときの情報量は 0 になります。


2.2. 加法性
複数の独立した出来事が起こる場合、その全体の情報量は各出来事の情報量の和になります。例えば、出来事 \( x \) と \( y \) が独立している場合、これらの同時発生の情報量は次のように表されます。
\[ \begin{align*} I(x, y) &= I(x) + I(y) \\ &= - \log_2 P(x) - \log_2 P(y) \\ &= - \log_2 \big(P(x) P(y)\big) \end{align*} \]
2.3. 確率が高い出来事ほど情報量は少ない
確率 \( P(x) \) が高い出来事ほど、それが起こったときの情報量は小さくなります。確率 \( P(x) \) が 1 に近づくと、情報量は 0 に近づき、確率が低いほど情報量は大きくなります。
\[ I(x) = - \log P(x) \]
これは、日常的に例えると、頻繁に起こる出来事はあまり驚きを与えないため、情報量が少ないという意味になります。


3. 例題
3.1. 問題1
事象Aの発生確率は \( P(A) = \frac{1}{4} \) です。自己情報量 \( I(A) \) は次の式で計算できます。
\[ I(A) = -\log_2 P(A) = -\log_2 \left(\frac{1}{4}\right) \]
\[ I(A) = -\log_2 2^{-2} = -(-2) = 2 \, \text{ビット} \]
したがって、事象Aの自己情報量は 2ビット です。


3.2. 問題2
サイコロを1回振ったとき、出る目が1の確率は \( P(1) = \frac{1}{6} \) です。自己情報量 \( I(1) \) は次の式で計算できます。
\[ I(1) = -\log_2 P(1) = -\log_2 \left(\frac{1}{6}\right) \]
\[ I(1) = -\log_2 \left(6^{-1}\right) = \log_2 6 \approx 2.585 \, \text{ビット} \]
したがって、出る目が1である事象の自己情報量は 約2.585ビット です。
3.3. 問題3
エラーが発生する確率は \( P(\text{Error}) = 0.01 \) です。自己情報量 \( I(\text{Error}) \) は次の式で計算できます。
\[ I(\text{Error}) = -\log_2 P(\text{Error}) = -\log_2 (0.01) \]
\[ I(\text{Error}) = -\log_2 (10^{-2}) = 2 \log_2 10 \approx 6.644 \, \text{ビット} \]
したがって、エラー発生事象の自己情報量は 約6.644ビット です。