更新:2025/03/27

尤度関数の意味と性質、計算方法について

$はるか$

はるか

尤度関数、知ってる？

$ふゅか$

ふゅか

あっ、それって確率モデルで観測されたデータの「尤もらしさ」を表すやつだよね！例えば、データがどのパラメータから来たのかを探る感じ？

$はるか$

はるか

そう。観測データを固定して、どのパラメータがそのデータを生成したかを考える。

1. 尤度関数
2. 尤度関数の概要
2.1. 確率と尤度の違い
2.2. 数式での表現
2.3. 最大尤度推定（MLE: Maximum Likelihood Estimation）
3. 対数尤度
3.1. なぜ対数を取るのか？
4. 対数尤度の例
4.1. 正規分布（Gaussian）の例
4.2. 尤度関数
4.3. 対数尤度関数
4.4. $\mu$ に関する微分
4.5. $\sigma^2$ に関する微分
4.6. 結果

1. 尤度関数

尤度関数（Likelihood Function）とは、確率モデルにおいて観測されたデータが得られる「尤もらしさ」を、モデルのパラメータに対する関数として表したものです。より具体的には、確率分布のパラメータ $\theta$ と観測データ $x$ が与えられたとき、元の確率分布 $p(x \mid \theta)$ を「$\theta$ の関数」として捉え直したものを指します。

2. 尤度関数の概要

2.1. 確率と尤度の違い

確率（probability）は「パラメータ $\theta$ が既知」と仮定して、「このデータ $x$ が得られる確率はどれくらいか」を表すものです。
尤度（likelihood）は「データ $x$ は固定された既知のもの」として、「このデータを生成したパラメータ $\theta$ はどれくらい尤もらしいか」を表すものです。

2.2. 数式での表現

観測データを $x$、パラメータを $\theta$、確率密度関数（または確率質量関数）を $p$ とすると、

\[ L(\theta \mid x) = p(x \mid \theta) \] と表せます。

ここで $L(\theta \mid x)$ は「$\theta$ の関数」である点がポイントです。

2.3. 最大尤度推定（MLE: Maximum Likelihood Estimation）

最大尤度法では、尤度関数 $L(\theta \mid x)$ が最大化されるようなパラメータ $\hat{\theta}$ を推定量とします。最尤推定とも呼ばれます。

多くの場合、扱いやすさの観点から対数尤度（Log-likelihood） \[ \ell(\theta \mid x) = \log L(\theta \mid x) \] を最大化する方法が用いられます（$\log$ は単調増加関数なので最大化の解は同じ）。

$はるか$

はるか

最大尤度推定、どうやるか知ってる？

$ふゅか$

ふゅか

えっと、尤度関数を最大にするパラメータを探すんだよね。対数尤度にすると計算が楽になるって！

3. 対数尤度

対数尤度（Log-likelihood）とは、尤度関数 $ L(\theta \mid x) $ の対数を取ったものを指します。

\[ \ell(\theta \mid x) \;=\; \log\,L(\theta \mid x) \]

ここで、$\theta$ はモデルのパラメータ、$x$ は観測データを表します。

3.1. なぜ対数を取るのか？

積が総和に変わる
- 確率モデルでは、独立な観測データ $x_1, x_2, \dots, x_n$ に対する尤度 $L(\theta \mid x_1, x_2, \dots, x_n)$ は、 \[ L(\theta \mid x_1, \dots, x_n) = \prod_{i=1}^n p(x_i \mid \theta) \] と書けます。これを対数を取って対数尤度に変えると、 \[ \ell(\theta \mid x_1, \dots, x_n) = \log L(\theta \mid x_1, \dots, x_n) = \sum_{i=1}^n \log p(x_i \mid \theta) \] となり、「積の計算」が「和の計算」になるため、扱いやすくなります。
最大化の解は同じ
- 単調増加関数である対数関数を適用しても「最大値を与えるパラメータ」は変わりません。
- そのため、最大尤度法（MLE）では、$\ell(\theta \mid x)$ を最大化すれば、$L(\theta \mid x)$ を最大化したときと同じ解が得られます。

4. 対数尤度の例

4.1. 正規分布（Gaussian）の例

$\theta = (\mu, \sigma^2)$ を平均と分散のパラメータとする正規分布

\[ p(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\!\Bigl(-\frac{(x – \mu)^2}{2 \sigma^2}\Bigr) \]

に従う独立なデータ $x_1, x_2, \dots, x_n$ を観測したとします。

4.2. 尤度関数

\[ L(\mu, \sigma^2 \mid x_1, \dots, x_n) = \prod_{i=1}^n p(x_i \mid \mu, \sigma^2) \]

4.3. 対数尤度関数

\[ \ell(\mu, \sigma^2 \mid x_1, \dots, x_n) = \sum_{i=1}^n \log \Bigl[\, \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\!\bigl(-\frac{(x_i – \mu)^2}{2 \sigma^2}\bigr) \Bigr] \]

ここから対数の性質を用いて整理すると、

\[ \begin{align*} \ell(\mu, \sigma^2 \mid x_1, \dots, x_n) &= \sum_{i=1}^n \log \Bigl[ \frac{1}{\sqrt{2 \pi \sigma^2}} \exp\!\bigl(-\frac{(x_i – \mu)^2}{2 \sigma^2}\bigr) \Bigr] \\ &= \sum_{i=1}^n \Bigl[ \log \frac{1}{\sqrt{2 \pi \sigma^2}} + \log \exp\!\bigl(-\frac{(x_i – \mu)^2}{2 \sigma^2}\bigr) \Bigr] \\ &= \sum_{i=1}^n \Bigl[ -\frac{1}{2} \log(2 \pi \sigma^2) – \frac{(x_i – \mu)^2}{2 \sigma^2} \Bigr] \\ &= -\frac{n}{2} \log(2 \pi \sigma^2) – \frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i – \mu)^2 \\ &= -\frac{n}{2} \log(2 \pi) – \frac{n}{2} \log \sigma^2 – \frac{1}{2 \sigma^2} \sum_{i=1}^n (x_i – \mu)^2 \end{align*} \]

与えられた対数尤度関数を $\mu$ と $\sigma^2$ でそれぞれ微分し、それが 0 となる点を求めることで最大対数尤度を与える推定量を導出します。（最尤推定）

4.4. $\mu$ に関する微分

\[ \frac{\partial \ell}{\partial \mu} = -\frac{1}{2 \sigma^2} \cdot 2 \sum_{i=1}^n (x_i – \mu) (-1) \]

計算すると： \[ \frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^n (x_i – \mu) \]

これを 0 にすると： \[ \frac{1}{\sigma^2} \sum_{i=1}^n (x_i – \mu) = 0 \]

両辺を $\sigma^2$ で掛けると： \[ \sum_{i=1}^n (x_i – \mu) = 0 \]

さらに展開すると： \[ \sum_{i=1}^n x_i – n\mu = 0 \]

これを解くと： \[ \mu = \frac{1}{n} \sum_{i=1}^n x_i \]

つまり、$\mu$ の推定量は標本平均： \[ \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i\]

4.5. $\sigma^2$ に関する微分

\[ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2} \cdot \frac{1}{\sigma^2} + \frac{1}{2 (\sigma^2)^2} \sum_{i=1}^n (x_i – \mu)^2 \]

これを整理すると： \[ \frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2 \sigma^2} + \frac{1}{2 (\sigma^2)^2} \sum_{i=1}^n (x_i – \mu)^2 \]

これを 0 にすると： \[ -\frac{n}{2 \sigma^2} + \frac{1}{2 (\sigma^2)^2} \sum_{i=1}^n (x_i – \mu)^2 = 0 \]

両辺に $2 (\sigma^2)^2$ を掛けると： \[ -n \sigma^2 + \sum_{i=1}^n (x_i – \mu)^2 = 0 \]

これを解くと： \[ \sigma^2 = \frac{1}{n} \sum_{i=1}^n (x_i – \mu)^2 \]

4.6. 結果

最大対数尤度を与える推定量は以下の通りです：

平均の推定量： \[ \hat{\mu} = \frac{1}{n} \sum_{i=1}^n x_i \]
分散の推定量： \[ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (x_i – \hat{\mu})^2 \]

ホームに戻る

尤度関数の意味と性質、計算方法について

1. 尤度関数

2. 尤度関数の概要

2.1. 確率と尤度の違い

2.2. 数式での表現

2.3. 最大尤度推定（MLE: Maximum Likelihood Estimation）

3. 対数尤度

3.1. なぜ対数を取るのか？

4. 対数尤度の例

4.1. 正規分布（Gaussian）の例

4.2. 尤度関数

4.3. 対数尤度関数

4.4. \(\mu\) に関する微分

4.5. \(\sigma^2\) に関する微分

4.6. 結果

ベルヌーイ試行、ベルヌーイ分布の期待値・分散、例題について

Bradley–Terry modelの意味と例題、ロジスティック回帰について

ポアソン過程の意味と推定について

箱ひげ図と四分位範囲の意味と見方について

様々なプログラミング言語による最小二乗法の導出（Python、Java、C、GO、Javascript、R、Haskell、Java）