尤度関数(Likelihood Function)の意味と性質について




1. 尤度関数
尤度関数(Likelihood Function)とは、確率モデルにおいて観測されたデータが得られる「尤もらしさ」を、モデルのパラメータに対する関数として表したものです。より具体的には、確率分布のパラメータ \(\theta\) と観測データ \(x\) が与えられたとき、元の確率分布 \(p(x \mid \theta)\) を「\(\theta\) の関数」として捉え直したものを指します。
2. 尤度関数の概要
2.1. 確率と尤度の違い
- 確率(probability)は「パラメータ \(\theta\) が既知」と仮定して、「このデータ \(x\) が得られる確率はどれくらいか」を表すものです。
- 尤度(likelihood)は「データ \(x\) は固定された既知のもの」として、「このデータを生成したパラメータ \(\theta\) はどれくらい尤もらしいか」を表すものです。
2.2. 数式での表現
ここで \(L(\theta \mid x)\) は「\(\theta\) の関数」である点がポイントです。
2.3. 最大尤度推定(MLE: Maximum Likelihood Estimation)
最大尤度法では、尤度関数 \(L(\theta \mid x)\) が最大化されるようなパラメータ \(\hat{\theta}\) を推定量とします。最尤推定とも呼ばれます。
多くの場合、扱いやすさの観点から対数尤度(Log-likelihood) \[ \ell(\theta \mid x) = \log L(\theta \mid x) \] を最大化する方法が用いられます(\(\log\) は単調増加関数なので最大化の解は同じ)。


3. 対数尤度
対数尤度(Log-likelihood)とは、尤度関数 \( L(\theta \mid x) \) の対数を取ったものを指します。
\[ \ell(\theta \mid x) \;=\; \log\,L(\theta \mid x) \]
ここで、\(\theta\) はモデルのパラメータ、\(x\) は観測データを表します。
3.1. なぜ対数を取るのか?
- 積が総和に変わる
- 確率モデルでは、独立な観測データ \(x_1, x_2, \dots, x_n\) に対する尤度 \(L(\theta \mid x_1, x_2, \dots, x_n)\) は、 \[ L(\theta \mid x_1, \dots, x_n) = \prod_{i=1}^n p(x_i \mid \theta) \] と書けます。これを対数を取って対数尤度に変えると、 \[ \ell(\theta \mid x_1, \dots, x_n) = \log L(\theta \mid x_1, \dots, x_n) = \sum_{i=1}^n \log p(x_i \mid \theta) \] となり、「積の計算」が「和の計算」になるため、扱いやすくなります。
- 最大化の解は同じ
- 単調増加関数である対数関数を適用しても「最大値を与えるパラメータ」は変わりません。
- そのため、最大尤度法(MLE)では、\(\ell(\theta \mid x)\) を最大化すれば、\(L(\theta \mid x)\) を最大化したときと同じ解が得られます。
4. 対数尤度の例
4.1. 正規分布(Gaussian)の例
\(x\)0\) を平均と分散のパラメータとする正規分布\(x\)1に従う独立なデータ \(x_1, x_2, \dots, x_n\) を観測したとします。
4.2. 尤度関数
\[ L(\mu, \sigma^2 \mid x_1, \dots, x_n) = \prod_{i=1}^n p(x_i \mid \mu, \sigma^2) \]
4.3. 対数尤度関数
\[ \ell(\mu, \sigma^2 \mid x_1, \dots, x_n) = \sum_{i=1}^n \log \Bigl[\, \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\!\bigl(-\frac{(x_i - \mu)^2}{2 \sigma^2}\bigr) \Bigr] \]
ここから対数の性質を用いて整理すると、
\[ \begin{align*} \ell(\mu, \sigma^2 \mid x_1, \dots, x_n) &= \sum_{i=1}^n \log \Bigl[ \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\!\bigl(-\frac{(x_i - \mu)^2}{2 \sigma^2}\bigr) \Bigr] \\ &= \sum_{i=1}^n \Bigl[ \log \frac{1}{\sqrt{2 \pi \sigma^2}} + \log \exp\!\bigl(-\frac{(x_i - \mu)^2}{2 \sigma^2}\bigr) \Bigr] \\ &= \sum_{i=1}^n \Bigl[ -\frac{1}{2} \log(2 \pi \sigma^2) - \frac{(x_i - \mu)^2}{2 \sigma^2} \Bigr] \\ &= -\frac{n}{2} \log(2 \pi \sigma^2) - \frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \\ &= -\frac{n}{2} \log(2 \pi) - \frac{n}{2} \log \sigma^2 - \frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i - \mu)^2 \end{align*} \]
与えられた対数尤度関数を \(\mu\) と \(\sigma^2\) でそれぞれ微分し、それが 0 となる点を求めることで最大対数尤度を与える推定量を導出します。(最尤推定)
4.4. \(\mu\) に関する微分
\[ \frac{\partial \ell}{\partial \mu} = -\frac{1}{2 \sigma^2} \cdot 2 \sum_{i=1}^n (x_i - \mu) (-1) \]
計算すると: \[ \frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) \]
これを 0 にすると: \[ \frac{1}{\sigma^2} \sum_{i=1}^n (x_i - \mu) = 0 \]
両辺を \(\sigma^2\) で掛けると: \[ \sum_{i=1}^n (x_i - \mu) = 0 \]
さらに展開すると: \[ \sum_{i=1}^n x_i - n\mu = 0 \]
これを解くと: \[ \mu = \frac{1}{n} \sum_{i=1}^n x_i \]
つまり、\(\mu\) の推定量は標本平均: \[ \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i\]
4.5. \(\sigma^2\) に関する微分
\[ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2} \cdot \frac{1}{\sigma^2} + \frac{1}{2 (\sigma^2)^2} \sum_{i=1}^n (x_i - \mu)^2 \]
これを整理すると: \[ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2 \sigma^2} + \frac{1}{2 (\sigma^2)^2} \sum_{i=1}^n (x_i - \mu)^2 \]
これを 0 にすると: \[ -\frac{n}{2 \sigma^2} + \frac{1}{2 (\sigma^2)^2} \sum_{i=1}^n (x_i - \mu)^2 = 0 \]
両辺に \(2 (\sigma^2)^2\) を掛けると: \[ -n \sigma^2 + \sum_{i=1}^n (x_i - \mu)^2 = 0 \]
これを解くと: \[ \sigma^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \mu)^2 \]
4.6. 結果
最大対数尤度を与える推定量は以下の通りです:
- 平均の推定量: \[ \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i \]
- 分散の推定量: \[ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \hat{\mu})^2 \]