α-divergence(アルファダイバージェンス)の意味と性質について

はるか
はるか
αダイバージェンス。知ってる?
ふゅか
ふゅか
名前だけ聞いたことある!KLダイバージェンスと同じで、確率分布の違いを測るやつよね?

1. αダイバージェンス

αダイバージェンス(α-divergence)は、2つの確率分布間の違い・類似度を定量化するための尺度の一種です。

1.1. 定義

2つの確率分布 \( P \) と \( Q \)(それぞれの確率密度関数を \( p(x) \) と \( q(x) \) とする)があるとき、αダイバージェンスは以下の式で定義されます。

\[ D_\alpha(P \| Q) = \frac{1}{\alpha(1 - \alpha)} \left( 1 - \int_{-\infty}^{\infty} p(x)^\alpha q(x)^{1 - \alpha} \, dx \right) \]

ただし、αは実数で、0や1にはならない値を取ります。

1.2. αダイバージェンスの式変形

αダイバージェンスは次のように式変形することができます。

\[ D_\alpha(P \| Q) = \frac{4}{1 - \alpha^2} \left( 1 - \int_{-\infty}^\infty p(x)^{\frac{1 + \alpha}{2}} q(x)^{\frac{1 - \alpha}{2}} \, dx \right) \]

αダイバージェンスの式の \(\alpha\) を \(\frac{1+\alpha}{2}\) に置き換えて式を変形します。

\[ D_\alpha(P \| Q) = \frac{1}{\alpha(1 - \alpha)} \left( 1 - \int_{-\infty}^{\infty} p(x)^\alpha q(x)^{1 - \alpha} \, dx \right) \]

ここで、\(\alpha = \frac{1 + \alpha’}{2}\) と置き換えます(ここで、\(\alpha’\) は新しい変数として考えます)。したがって、元の式を以下のように書き換えます。

\[ \alpha = \frac{1 + \alpha’}{2}, \quad 1 - \alpha = \frac{1 - \alpha’}{2} \]

このとき、\(\alpha(1 - \alpha)\) は次のように計算されます。

\[ \alpha(1 - \alpha) = \left(\frac{1 + \alpha’}{2}\right) \left(\frac{1 - \alpha’}{2}\right) = \frac{1 - \alpha’^2}{4} \]

したがって、分母の \(\alpha(1 - \alpha)\) は \(\frac{1 - \alpha’^2}{4}\) となります。

元の式に代入していくと

\[ D_\alpha(P \| Q) = \frac{1}{\frac{1 - \alpha’^2}{4}} \left( 1 - \int_{-\infty}^{\infty} p(x)^{\frac{1 + \alpha’}{2}} q(x)^{\frac{1 - \alpha’}{2}} \, dx \right) \]

分母の逆数を取ると次のようになります

\[ D_\alpha(P \| Q) = \frac{4}{1 - \alpha’^2} \left( 1 - \int_{-\infty}^{\infty} p(x)^{\frac{1 + \alpha’}{2}} q(x)^{\frac{1 - \alpha’}{2}} \, dx \right) \]

したがって、$\alpha’$を$\alpha$に置き換えると、

\[ D_\alpha(P \| Q) = \frac{4}{1 - \alpha^2} \left( 1 - \int_{-\infty}^\infty p(x)^{\frac{1 + \alpha}{2}} q(x)^{\frac{1 - \alpha}{2}} \, dx \right) \]

1.3. KLダイバージェンスの式

\( D_{KL}(P \| Q) \) はKullback-Leibler (KL) ダイバージェンスで、連続的な場合、以下のように定義されます。

\[ D_{\text{KL}}(P \| Q) = \int_{-\infty}^{\infty} p(x) \log \frac{p(x)}{q(x)} \, dx \]

2. 性質

α → 1 、α → 0のとき、αダイバージェンスは次のようにKLダイバージェンスに収束します。

\[ \alpha → 1 のとき、D_\alpha(P \| Q) \to D_{KL}(P \| Q) \]

\[ \alpha → 0のとき、D_\alpha(P \| Q) \to D_{KL}(Q \| P) \]

ふゅか
ふゅか
αが1に近づくとKLダイバージェンスになるって本当?
はるか
はるか
本当。具体的には、\( D_{KL}(P \| Q) \) に収束する。
ふゅか
ふゅか
じゃあ、逆にαが0に近づいたら?
はるか
はるか
今度は \( D_{KL}(Q \| P) \) に収束する。

2.1. $\alpha → 1$

2つの確率分布 \( P \) と \( Q \)(それぞれの確率密度関数を \( p(x) \) と \( q(x) \) とする)の間の α ダイバージェンスは以下のように定義されます。

\[ D_\alpha(P \| Q) = \frac{1}{\alpha(1 - \alpha)} \left( 1 - \int_{-\infty}^{\infty} p(x)^\alpha q(x)^{1 - \alpha} \, dx \right) \]

\[ I(\alpha) = \int_{-\infty}^\infty p(x)^\alpha q(x)^{1-\alpha} dx \] と定義します。この式を \(\alpha\) で微分します。

はるか
はるか
ロピタルの定理で使うために微分を計算。

\[\begin{align*} \frac{\partial}{\partial\alpha} I(\alpha) &= \frac{\partial}{\partial\alpha} \int_{-\infty}^\infty p(x)^\alpha q(x)^{1-\alpha} dx \\ &= \int_{-\infty}^\infty \frac{\partial}{\partial\alpha} \left[ p(x)^\alpha q(x)^{1-\alpha} \right] dx \\ &= \int_{-\infty}^\infty \left[ \log(p(x)) p(x)^\alpha q(x)^{1-\alpha} - \log(q(x)) p(x)^\alpha q(x)^{1-\alpha} \right] dx \\ &= \int_{-\infty}^\infty p(x)^\alpha q(x)^{1-\alpha} \left[ \log(p(x)) - \log(q(x)) \right] dx \\ &= \int_{-\infty}^\infty p(x)^\alpha q(x)^{1-\alpha} \log\left(\frac{p(x)}{q(x)}\right) dx \end{align*} \]

ロピタルの定理より、\(\alpha → 1\) の極限を計算すると、

\[ \begin{align*} \lim_{\alpha \to 1} D_\alpha(P \| Q) &= \lim_{\alpha \to 1} \frac{-\int_{-\infty}^\infty p(x)^\alpha q(x)^{1-\alpha} \log\left(\frac{p(x)}{q(x)}\right) dx}{1 - 2\alpha} \\ &= \int_{-\infty}^\infty p(x) \log\left(\frac{p(x)}{q(x)}\right) dx \end{align*}\]

これは、KLダイバージェンス$ D_{KL}(P \| Q)$の式です。したがって、

\[ \alpha → 1 のとき、D_\alpha(P \| Q) \to D_{KL}(P \| Q) \]

2.2. $\alpha → 0$

同様にロピタルの定理より、\(\alpha → 0\) の極限を計算すると、

\[ \begin{align*} \lim_{\alpha \to 0} D_\alpha(P \| Q) &= \lim_{\alpha \to 0} \frac{-\int_{-\infty}^\infty p(x)^\alpha q(x)^{1-\alpha} \log\left(\frac{p(x)}{q(x)}\right) dx}{1 - 2\alpha} \\ &= -\int_{-\infty}^\infty q(x) \log\left(\frac{p(x)}{q(x)}\right) dx \\ &= \int_{-\infty}^\infty q(x) \log\left(\frac{q(x)}{p(x)}\right) dx \end{align*}\]

これは同様に、KLダイバージェンス $D_{KL}(Q \| P)$の式です。したがって、

\[ \alpha → 0のとき、D_\alpha(P \| Q) \to D_{KL}(Q \| P) \]

PR