交差エントロピーの数式解説!機械学習における重要性



1. 交差エントロピーとは?
交差エントロピー(cross-entropy)は、情報理論や機械学習において重要な概念です。これは、ある確率分布が他の確率分布とどれだけ異なるかを測定するために使用されます。

\[ H(p, q) = - \sum_{x} p(x) \log q(x) = \mathbb{E}[-\log q(x)] \]
ここで、\( p(x) \) は真の分布(ターゲット分布)であり、\( q(x) \) は予測された分布(モデルの出力)です。この式は、ターゲット分布 \( p \) と予測分布 \( q \) の間の交差エントロピーを計算しています。
1.1. 使用される場面


交差エントロピーは、主に次のような分類問題の場面で使用されます。
ラベル | 予測確率 |
---|---|
犬 | 0.8 |
猫 | 0.2 |
分類問題において、モデルが「犬」と予測する確率を0.8、「猫」と予測する確率を0.2とします。正解ラベルが「犬」である画像に対して、このときの交差エントロピーは次のように計算されます。
\[ -\left( 1 \cdot \log 0.8 + 0 \cdot \log 0.2 \right) = -\log 0.8 = 0.0969 \]
次に、犬の予測確率が低い場合を考えてみます。
ラベル | 予測確率 |
---|---|
犬 | 0.1 |
猫 | 0.9 |
分類問題において、モデルが「犬」と予測する確率を0.1、「猫」と予測する確率を0.9とします。
正解ラベルが「犬」である画像に対して、このときの交差エントロピーは次のように計算されます。
\[ -\left( 1 \cdot \log 0.1 + 0 \cdot \log 0.9 \right) = -\log 0.1 = 2.3026 \]
交差エントロピーは、モデルの予測が正解ラベルに近づくほど小さくなり、逆に予測が外れるほど大きくなります。これにより、モデルの訓練中に損失関数として使用され、モデルの予測精度を向上させるための指標となります。