更新:2025/02/27

超幾何分布の意味と期待値、分散について

はるか
はるか
超幾何分布って何?
ふゅか
ふゅか
超幾何分布は、抽出したものを元に戻さない「非復元抽出」のときに成り立つ確率分布よ!例えば、箱に赤い玉と青い玉が入っていて、ランダムに何個か取り出すときに「赤い玉がちょうど〇個出る確率」を求めるのに使うの。
はるか
はるか
戻さないのがポイント?
ふゅか
ふゅか
そう!復元抽出なら確率はずっと同じだけど、非復元だと引くたびに状況が変わるから、確率が変化するの。それを表現するのが超幾何分布よ!

1. 超幾何分布とは

超幾何分布は、「非復元抽出 (sampling without replacement)」の状況をモデル化する分布です。典型的な例としては、次のような場面を想定します。

  • 母集団の大きさを \(N\) とする。
  • 母集団の中に「成功」とみなす対象が \(K\) 個含まれている。
  • この母集団から \(n\) 個を戻さずに取り出す(非復元)とき、取り出した中に「成功」がちょうど \(k\) 個含まれる確率を求めたい。

このとき、確率変数 \(X\)(「成功」の個数)が従う分布が、超幾何分布です。

2. 確率質量関数 (PMF)

ある成功した$M$個と失敗した$N-M$個についてのN個の集団があったする。この集団からn個取り出したとき、超幾何分布は次のような確率質量関数となる。

$$ P(X = k) = \frac{_{M}\mathrm{C}_{k} \cdot _{N-M}\mathrm{C}_{n-k}}{_{N}\mathrm{C}_{n}}, \quad k = 0, 1, 2, \ldots, n $$

  • 分子:
    • 「成功」\(M\) 個のうちから \(k\) 個を選ぶ組合せ \(\rightarrow_{M}\mathrm{C}_{k}\)
    • 「成功でない」\((N-M)\) 個のうちから \((n-k)\) 個を選ぶ組合せ \(\rightarrow_{N-M}\mathrm{C}_{n-k}\)
    • それらを同時に満たすパターンの総数は、両者の積である。
  • 分母:
    • 母集団 \(N\) 個のうちから \(n\) 個を選ぶ組合せ \(\rightarrow_{N}\mathrm{C}_{n}\)

「すべての抽出パターンのうち、上記分子で表されるパターンが選ばれる割合」を確率とみなすことで、この式が導かれます。

3. 二項分布との違い・関係

  • 二項分布は復元抽出(あるいは各試行が独立で成功確率が一定)のモデル。
  • 超幾何分布は非復元抽出のモデル。

母集団 \(N\) が非常に大きい場合、取り出すたびに「成功か失敗か」の確率がほぼ一定とみなせるため、超幾何分布は二項分布に近似されます。その際、二項分布のパラメータ \(p\) は「母集団に占める成功の割合」\(\frac{K}{N}\) に対応します。

4. 期待値と分散

4.1. 期待値

超幾何分布に従う確率変数 \(X\) の期待値は次のとおりです。

\[ E[X] = n \times \frac{K}{N} \]

これは「母集団中の成功の割合」にサンプルサイズ \(n\) を掛けただけのシンプルな形で、直観的にも理解しやすい結果です。


各試行 \(i = 1, 2, \dots, n\) について, \[ X_i = \begin{cases} 1 & (\text{\(i\)回目の抽出が成功})\\ 0 & (\text{それ以外}) \end{cases} \]

このとき,総成功数 \(X\) は \[ X \;=\; \sum_{i=1}^{n} X_i \] と書けます。

期待値の線型性(加法性)より \[ E[X] \;=\; E\!\Bigl[\sum_{i=1}^{n}X_i\Bigr] \;=\; \sum_{i=1}^{n} E[X_i]. \]

それぞれの \(X_i\) は「\(i\)回目に成功を引くかどうか」の指示変数です。

非復元抽出であっても,「各回の抽出が成功である確率」はすべての試行で一様に \[ P(X_i=1) \;=\; \frac{K}{N} \] となることが知られています(サンプルを取る順序に依らず,「母集団に占める成功の割合」になるため)。

よって \[ E[X_i] \;=\; 1 \times P(X_i=1) + 0 \times P(X_i=0) \;=\; \frac{K}{N}. \]

以上より, \[ E[X] \;=\; \sum_{i=1}^n E[X_i] \;=\; \sum_{i=1}^n \frac{K}{N} \;=\; n \times \frac{K}{N}. \]

4.2. 分散

分散 \(\mathrm{Var}(X)\) は以下のとおりです。

\[ \mathrm{Var}(X) = n \times \frac{M}{N} \times \left(1 - \frac{M}{N}\right) \times \frac{N - n}{N - 1} \]

\[ X = \sum_{i=1}^{n} X_i, \quad X_i = \begin{cases} 1 & (\text{\(i\)回目成功})\\ 0 & (\text{それ以外}) \end{cases} \] とします。

すると分散は

\[ \mathrm{Var}(X) = \mathrm{Var}\!\Bigl(\sum_{i=1}^n X_i\Bigr) = \sum_{i=1}^n \mathrm{Var}(X_i) \;+\; 2 \sum_{1 \le i < j \le n} \mathrm{Cov}(X_i, X_j) \]

各 \(X_i\) はベルヌーイ試行であるので、

\[ \mathrm{Var}(X_i) = p(1 - p) = \frac{M}{N}\left(1 - \frac{M}{N}\right) \]

\(n\) 個あるので,まず

\[ \sum_{i=1}^n \mathrm{Var}(X_i) = n \frac{M}{N}\Bigl(1 - \frac{M}{N}\Bigr) \]

\(\mathrm{Cov}(X_i, X_j)\) の計算をするために、次に,\(i \ne j\) のとき

\[ \mathrm{Cov}(X_i, X_j) = E[X_i X_j] - E[X_i]\,E[X_j] \]

  • \(E[X_i] = E[X_j] = \frac{M}{N}\)
  • \(E[X_i X_j]\) は「\(i\)回目,\(j\)回目とも成功」という事象の確率に等しい。

(1) \(E[X_i X_j]\) の値

2つの確率変数 \(X_i \) と \( X_j \) の積 \( I_i I_j \) の期待値は、次のように定義されます。

\[ E[X_i X_j] = \sum_{X_i, X_j} X_i X_j \cdot P(X_i, X_j) \]

\( X_i, X_j \) はそれぞれ 0 または 1 しか取らないため、この式は

\[\begin{align*} E[X_i X_j] &= 1 \cdot P(X_i = 1, X_j = 1) + 0 \cdot P(X_i = 1, X_j = 0) + 0 \cdot P(X_i = 0, X_j = 1) + 0 \cdot P(X_i = 0, X_j = 0) \\ &= P(X_i = 1, X_j = 1) \end{align*} \]

となります。非復元なので,「最初が成功」で「次も成功」となる確率は

\[ P(X_i = 1, X_j = 1)=\frac{M}{N} \;\times\; \frac{M-1}{N-1} \] したがって \[ E[X_i X_j] = \frac{M}{N} \times \frac{M-1}{N-1} \]

(2) 共分散の計算

\[ \mathrm{Cov}(X_i, X_j) = \frac{M}{N} \cdot \frac{M-1}{N-1} \;-\; \frac{M}{N} \cdot \frac{M}{N} = \frac{M}{N}\biggl(\frac{M-1}{N-1} - \frac{M}{N}\biggr) \]

かっこの中を通分・整理してやると

\[ \frac{M-1}{N-1} - \frac{M}{N} = \frac{N(M-1) - M(N-1)}{N(N-1)} = \frac{M - N}{N(N-1)} \]

となり,

\[\mathrm{Cov}(X_i, X_j)=\frac{M}{N}\cdot \frac{M-N}{N(N-1)} =\frac{M(N-M)}{N^2(N-1)} \]

全体の分散をまとめる

  • 共分散は上記同様の値になるペアが \(\binom{n}{2}\) 個ある。
  • したがって \[ \sum_{1 \le i < j \le n} \mathrm{Cov}(X_i, X_j) = \binom{n}{2} \Bigl(-\,\frac{M(N-M)}{N^2(N-1)}\Bigr) \] さらに \[ 2\sum_{1 \le i < j \le n} \mathrm{Cov}(X_i, X_j) = n(n-1) \Bigl(-\,\frac{M(N-M)}{N^2(N-1)}\Bigr) \]

よって

\[ \mathrm{Var}(X) = \underbrace{n \frac{M}{N}\Bigl(1 - \frac{M}{N}\Bigr)}_{\displaystyle \sum\mathrm{Var}(X_i)} \;+\; \underbrace{n(n-1)\Bigl(-\,\frac{M(N-M)}{N^2(N-1)}\Bigr)}_{\displaystyle 2\sum\mathrm{Cov}(X_i,X_j)} \]

この式を整理していくと,最終的に

$$\begin{align*} \mathrm{Var}(X) &= n \frac{M}{N}\left(1 - \frac{M}{N}\right) + n(n-1)\left(-\,\frac{M(N-M)}{N^2(N-1)}\right) \\ &= n \frac{M(N-M)}{N^2} - n(n-1)\frac{M(N-M)}{N^2(N-1)} \\ &= \frac{M(N-M)}{N^2}\left[n - \frac{n(n-1)}{N-1}\right] \\ &= \frac{M(N-M)}{N^2}\, n\left(1 - \frac{n-1}{N-1}\right) \\ & =n \;\frac{M}{N}\;\Bigl(1 - \frac{M}{N}\Bigr)\; \frac{N - n}{\,N - 1\,} \end{align*}$$

という形になります。

5.  二項分布との類似点

超幾何分布は、二項分布と似た形をしており、試行回数 \( n \) に対して成功確率が一定であれば二項分布になります。しかし、超幾何分布は 試行ごとに成功確率が変化する という違いがあります。

5.1. 期待値の比較

超幾何分布に従う確率変数 \( X \) の期待値は

\[ E[X] = n \times \frac{K}{N} \] となります。これは、二項分布 \( \text{Bin}(n, p) \) の期待値 \( E[X] = n p \) に似ています。超幾何分布では、成功確率 \( p \) が全体の割合 \( K/N \) に相当します。

5.2. 分散の比較

超幾何分布の分散は

\[ \mathrm{Var}(X) = n \times \frac{M}{N} \times \left(1 - \frac{M}{N}\right) \times \frac{N - n}{N - 1} \]

となります。二項分布の分散

\[ \mathrm{Var}(X) = n p (1 - p) \]

と比較すると、超幾何分布には $ \frac{N - n}{N - 1}$ が掛かっています。この係数が 1 に近い(つまり \( N \gg n \) の場合)とき、超幾何分布は二項分布とほぼ一致します。

PR