更新:2025/01/25

確率測度の全変動距離(Total variation distance of probability measures)

ふゅか
ふゅか
全変動距離って聞いたことある?なんだか「確率分布の違い」を測るものらしいけど・・・。
はるか
はるか
2つの確率測度がどれだけ違うかを示す指標。

1. 確率測度の全変動距離

確率測度の全変動距離(Total Variation Distance; TVD)は、2つの確率測度(または確率分布)間の差を測るための指標です。この概念は、確率論や統計学、情報理論において広く用いられています。全変動距離は、直感的には、2つの分布を区別するための「最大の違い」を表しています。

1.1. 全変動距離の定義

確率空間 \((\Omega, \mathcal{F})\) 上の2つの確率測度 \(\mu\) と \(\nu\) に対して、全変動距離 \(\|\mu - \nu\|_{\mathrm{TV}}\) は以下のように定義されます:

\[ \|\mu - \nu\|_{\mathrm{TV}} = \sup _{A\in {\mathcal {F}}}|\mu(A) - \nu(A)| \]

ここで:

  • \(A\) は確率空間 \((\Omega, \mathcal{F})\) 上の事象(\(\mathcal{F}\) の元)。
  • \(\mu(A)\) と \(\nu(A)\) は、事象 \(A\) に対する確率測度。

 

2. 例

2.1. 離散分布の場合

2つの離散分布 \(\mu = (p_1, p_2, \dots, p_n)\) と \(\nu = (q_1, q_2, \dots, q_n)\) に対して、全変動距離は次のように計算されます:

\[ \|\mu - \nu\|_{\mathrm{TV}} = \frac{1}{2} \sum_{i=1}^n |p_i - q_i| \]

2.2. 連続分布の場合

\(\mu\) と \(\nu\) が確率密度関数 \(p(x)\) と \(q(x)\) に基づく連続分布の場合、全変動距離は次のように計算されます:

\[ \|\mu - \nu\|_{\mathrm{TV}} = \frac{1}{2} \int |p(x) - q(x)| dx \]

3. 距離空間の性質を確認

3.1. 非負性(\(d(x, y) \geq 0\))

\[ d_{\text{TV}}(\mu, \nu) = \sup_{A \in \mathcal{F}} |\mu(A) - \nu(A)| \] ここで、絶対値の性質から \(|\mu(A) - \nu(A)| \geq 0\) が成り立ちます。したがって、全変動距離 \(d_{\text{TV}}(\mu, \nu) \geq 0\) が成立します。

さらに、\(\mu = \nu\) の場合、全ての事象 \(A\) について \(\mu(A) = \nu(A)\) であるため、\(|\mu(A) - \nu(A)| = 0\) となります。この結果から、\(d_{\text{TV}}(\mu, \nu) = 0\) です。

3.2. 同値性(\(d(x, y) = 0 \iff x = y\))

\[ d_{\text{TV}}(\mu, \nu) = 0 \iff \sup_{A \in \mathcal{F}} |\mu(A) - \nu(A)| = 0 \] この式が成り立つのは、すべての事象 \(A \in \mathcal{F}\) について \(\mu(A) = \nu(A)\) の場合に限ります。確率測度の同一性から、\(\mu = \nu\) が成り立ちます。

逆に、\(\mu = \nu\) であれば、全ての事象 \(A\) について \(\mu(A) - \nu(A) = 0\) となるため、\(d_{\text{TV}}(\mu, \nu) = 0\) が成立します。

したがって、\(d_{\text{TV}}(\mu, \nu) = 0 \iff \mu = \nu\) が成り立ちます。

3.3. 対称性(\(d(x, y) = d(y, x)\))

\[ d_{\text{TV}}(\mu, \nu) = \sup_{A \in \mathcal{F}} |\mu(A) - \nu(A)| \] 絶対値の性質より、\(|\mu(A) - \nu(A)| = |\nu(A) - \mu(A)|\) が成り立ちます。したがって、 \[ d_{\text{TV}}(\mu, \nu) = d_{\text{TV}}(\nu, \mu) \] が成立します。

3.4. 三角不等式(\(d(x, z) \leq d(x, y) + d(y, z)\))

任意の事象 \(A\) について、 \[ |\mu(A) - \lambda(A)| \leq |\mu(A) - \nu(A)| + |\nu(A) - \lambda(A)| \] が成り立ちます(絶対値の三角不等式)。したがって、 \[ \sup_{A \in \mathcal{F}} |\mu(A) - \lambda(A)| \leq \sup_{A \in \mathcal{F}} |\mu(A) - \nu(A)| + \sup_{A \in \mathcal{F}} |\nu(A) - \lambda(A)| \] となり、全変動距離に対して三角不等式が成立します。

これらの性質を全て満たすため、全変動距離は距離関数であり、確率測度の集合上に距離空間を定義することができます。

PR