更新:2025/02/27

超幾何分布の意味と期待値、分散について

$はるか$

はるか

超幾何分布って何？

$ふゅか$

ふゅか

超幾何分布は、抽出したものを元に戻さない「非復元抽出」のときに成り立つ確率分布よ！例えば、箱に赤い玉と青い玉が入っていて、ランダムに何個か取り出すときに「赤い玉がちょうど〇個出る確率」を求めるのに使うの。

$はるか$

はるか

戻さないのがポイント？

$ふゅか$

ふゅか

そう！復元抽出なら確率はずっと同じだけど、非復元だと引くたびに状況が変わるから、確率が変化するの。それを表現するのが超幾何分布よ！

1. 超幾何分布とは
2. 確率質量関数 (PMF)
3. 二項分布との違い・関係
4. 期待値と分散
4.1. 期待値
4.2. 分散
5. 二項分布との類似点
5.1. 期待値の比較
5.2. 分散の比較

1. 超幾何分布とは

超幾何分布は、「非復元抽出 (sampling without replacement)」の状況をモデル化する分布です。典型的な例としては、次のような場面を想定します。

母集団の大きさを $N$ とする。
母集団の中に「成功」とみなす対象が $K$ 個含まれている。
この母集団から $n$ 個を戻さずに取り出す（非復元）とき、取り出した中に「成功」がちょうど $k$ 個含まれる確率を求めたい。

このとき、確率変数 $X$（「成功」の個数）が従う分布が、超幾何分布です。

2. 確率質量関数 (PMF)

ある成功した$M$個と失敗した$N-M$個についてのN個の集団があったする。この集団からn個取り出したとき、超幾何分布は次のような確率質量関数となる。

$$ P(X = k) = \frac{_{M}\mathrm{C}_{k} \cdot _{N-M}\mathrm{C}_{n-k}}{_{N}\mathrm{C}_{n}}, \quad k = 0, 1, 2, \ldots, n $$

分子:
- 「成功」$M$ 個のうちから $k$ 個を選ぶ組合せ $\rightarrow_{M}\mathrm{C}_{k}$
- 「成功でない」$(N-M)$ 個のうちから $(n-k)$ 個を選ぶ組合せ $\rightarrow_{N-M}\mathrm{C}_{n-k}$
- それらを同時に満たすパターンの総数は、両者の積である。
分母:
- 母集団 $N$ 個のうちから $n$ 個を選ぶ組合せ $\rightarrow_{N}\mathrm{C}_{n}$

「すべての抽出パターンのうち、上記分子で表されるパターンが選ばれる割合」を確率とみなすことで、この式が導かれます。

3. 二項分布との違い・関係

二項分布は復元抽出（あるいは各試行が独立で成功確率が一定）のモデル。
超幾何分布は非復元抽出のモデル。

母集団 $N$ が非常に大きい場合、取り出すたびに「成功か失敗か」の確率がほぼ一定とみなせるため、超幾何分布は二項分布に近似されます。その際、二項分布のパラメータ $p$ は「母集団に占める成功の割合」$\frac{K}{N}$ に対応します。

4. 期待値と分散

4.1. 期待値

超幾何分布に従う確率変数 $X$ の期待値は次のとおりです。

\[ E[X] = n \times \frac{K}{N} \]

これは「母集団中の成功の割合」にサンプルサイズ $n$ を掛けただけのシンプルな形で、直観的にも理解しやすい結果です。

各試行 $i = 1, 2, \dots, n$ について， \[ X_i = \begin{cases} 1 & (\text{$i$回目の抽出が成功})\\ 0 & (\text{それ以外}) \end{cases} \]

このとき，総成功数 $X$ は \[ X \;=\; \sum_{i=1}^{n} X_i \] と書けます。

期待値の線型性(加法性)より \[ E[X] \;=\; E\!\Bigl[\sum_{i=1}^{n}X_i\Bigr] \;=\; \sum_{i=1}^{n} E[X_i]. \]

それぞれの $X_i$ は「$i$回目に成功を引くかどうか」の指示変数です。

非復元抽出であっても，「各回の抽出が成功である確率」はすべての試行で一様に \[ P(X_i=1) \;=\; \frac{K}{N} \] となることが知られています（サンプルを取る順序に依らず，「母集団に占める成功の割合」になるため）。

よって \[ E[X_i] \;=\; 1 \times P(X_i=1) + 0 \times P(X_i=0) \;=\; \frac{K}{N}. \]

以上より， \[ E[X] \;=\; \sum_{i=1}^n E[X_i] \;=\; \sum_{i=1}^n \frac{K}{N} \;=\; n \times \frac{K}{N}. \]

4.2. 分散

分散 $\mathrm{Var}(X)$ は以下のとおりです。

\[ \mathrm{Var}(X) = n \times \frac{M}{N} \times \left(1 – \frac{M}{N}\right) \times \frac{N – n}{N – 1} \]

\[ X = \sum_{i=1}^{n} X_i, \quad X_i = \begin{cases} 1 & (\text{$i$回目成功})\\ 0 & (\text{それ以外}) \end{cases} \] とします。

すると分散は

\[ \mathrm{Var}(X) = \mathrm{Var}\!\Bigl(\sum_{i=1}^n X_i\Bigr) = \sum_{i=1}^n \mathrm{Var}(X_i) \;+\; 2 \sum_{1 \le i < j \le n} \mathrm{Cov}(X_i, X_j) \]

各 $X_i$ はベルヌーイ試行であるので、

\[ \mathrm{Var}(X_i) = p(1 – p) = \frac{M}{N}\left(1 – \frac{M}{N}\right) \]

$n$ 個あるので，まず

\[ \sum_{i=1}^n \mathrm{Var}(X_i) = n \frac{M}{N}\Bigl(1 – \frac{M}{N}\Bigr) \]

$\mathrm{Cov}(X_i, X_j)$ の計算をするために、次に，$i \ne j$ のとき

\[ \mathrm{Cov}(X_i, X_j) = E[X_i X_j] – E[X_i]\,E[X_j] \]

$E[X_i] = E[X_j] = \frac{M}{N}$
$E[X_i X_j]$ は「$i$回目，$j$回目とも成功」という事象の確率に等しい。

(1) $E[X_i X_j]$ の値

2つの確率変数 $X_i $ と $ X_j $ の積 $ I_i I_j $ の期待値は、次のように定義されます。

\[ E[X_i X_j] = \sum_{X_i, X_j} X_i X_j \cdot P(X_i, X_j) \]

$ X_i, X_j $ はそれぞれ 0 または 1 しか取らないため、この式は

\[\begin{align*} E[X_i X_j] &= 1 \cdot P(X_i = 1, X_j = 1) + 0 \cdot P(X_i = 1, X_j = 0) + 0 \cdot P(X_i = 0, X_j = 1) + 0 \cdot P(X_i = 0, X_j = 0) \\ &= P(X_i = 1, X_j = 1) \end{align*} \]

となります。非復元なので，「最初が成功」で「次も成功」となる確率は

\[ P(X_i = 1, X_j = 1)=\frac{M}{N} \;\times\; \frac{M-1}{N-1} \] したがって \[ E[X_i X_j] = \frac{M}{N} \times \frac{M-1}{N-1} \]

(2) 共分散の計算

\[ \mathrm{Cov}(X_i, X_j) = \frac{M}{N} \cdot \frac{M-1}{N-1} \;-\; \frac{M}{N} \cdot \frac{M}{N} = \frac{M}{N}\biggl(\frac{M-1}{N-1} – \frac{M}{N}\biggr) \]

かっこの中を通分・整理してやると

\[ \frac{M-1}{N-1} – \frac{M}{N} = \frac{N(M-1) – M(N-1)}{N(N-1)} = \frac{M – N}{N(N-1)} \]

となり，

\[\mathrm{Cov}(X_i, X_j)=\frac{M}{N}\cdot \frac{M-N}{N(N-1)} =\frac{M(N-M)}{N^2(N-1)} \]

全体の分散をまとめる

共分散は上記同様の値になるペアが $\binom{n}{2}$ 個ある。
したがって \[ \sum_{1 \le i < j \le n} \mathrm{Cov}(X_i, X_j) = \binom{n}{2} \Bigl(-\,\frac{M(N-M)}{N^2(N-1)}\Bigr) \] さらに \[ 2\sum_{1 \le i < j \le n} \mathrm{Cov}(X_i, X_j) = n(n-1) \Bigl(-\,\frac{M(N-M)}{N^2(N-1)}\Bigr) \]

よって

\[ \mathrm{Var}(X) = \underbrace{n \frac{M}{N}\Bigl(1 – \frac{M}{N}\Bigr)}_{\displaystyle \sum\mathrm{Var}(X_i)} \;+\; \underbrace{n(n-1)\Bigl(-\,\frac{M(N-M)}{N^2(N-1)}\Bigr)}_{\displaystyle 2\sum\mathrm{Cov}(X_i,X_j)} \]

この式を整理していくと，最終的に

$$\begin{align*} \mathrm{Var}(X) &= n \frac{M}{N}\left(1 – \frac{M}{N}\right) + n(n-1)\left(-\,\frac{M(N-M)}{N^2(N-1)}\right) \\ &= n \frac{M(N-M)}{N^2} – n(n-1)\frac{M(N-M)}{N^2(N-1)} \\ &= \frac{M(N-M)}{N^2}\left[n – \frac{n(n-1)}{N-1}\right] \\ &= \frac{M(N-M)}{N^2}\, n\left(1 – \frac{n-1}{N-1}\right) \\ & =n \;\frac{M}{N}\;\Bigl(1 – \frac{M}{N}\Bigr)\; \frac{N – n}{\,N – 1\,} \end{align*}$$

という形になります。