偏相関係数とは?その意味と最小二乗法を使った導出を詳しく解説




「相関係数は知っているけれど、偏相関係数って何?」と思ったことはありませんか?単なる相関係数だけでは、本当の関係性を正しく捉えられないことがあります。たとえば、「身長と学力の関係」を調べる際に、年齢の影響を無視すると誤った結論を導いてしまうかもしれません。
では、どうすれば 「不要な影響を取り除いた真の関係」 を測ることができるのでしょうか? そこで登場するのが 偏相関係数 です。偏相関係数を使えば、特定の要因を制御した上で、2つの変数の関係を正しく測定できます。
本記事では、
- 偏相関係数とは何か?通常の相関係数との違い
- 最小二乗法を利用した偏相関係数の導出
- 偏相関係数の計算方法とその応用
について、初心者でも理解しやすいように 数式と直感的な説明を交えながら 解説します。偏相関係数を理解することで、データ分析や統計解析のスキルをさらに向上させましょう!
1. 偏相関係数とは
偏相関係数(Partial Correlation Coefficient)とは、「ある変数が持つ影響を取り除いたうえで、2つの変数間の相関を測る指標」です。
通常の相関係数(Pearsonの積率相関係数)は、単に2つの変数 \(X\) と \(Y\) の線形関係を示します。しかし、現実のデータ分析では「ある特定の変数 \(Z\) によって、\(X\) と \(Y\) の関係が大きく左右されているかもしれない」という状況がよくあります。たとえば、「身長(\(X\)) と 学力(\(Y\)) の関係」を知りたいとき、「年齢(\(Z\)) の影響」まで考慮せずに相関を取ってしまうと誤った解釈をしてしまうかもしれません。
そこで、変数 \(Z\) の影響を取り除いてから、改めて \(X\) と \(Y\) の関係だけに着目したいときに役立つのが「偏相関係数」です。3つの変数 \(X, Y, Z\) を例にすると、「\(Z\) の影響を取り除いた上での \(X\) と \(Y\) の相関」 を計算する指標が偏相関係数になります。
2. 偏相関係数の定義
2つの変数 \(X\) と \(Y\) に対し、制御変数(取り除きたい変数)\(Z\) の影響を除いた偏相関係数を \( r_{XY\cdot Z} \) と書き、以下の式で定義されます。
\[ r_{XY\cdot Z} = \frac{r_{XY} - r_{XZ} \, r_{YZ}}{\sqrt{\bigl(1 - r_{XZ}^2\bigr)\bigl(1 - r_{YZ}^2\bigr)}} \]
ここで、
- \( r_{XY} \) は \(X\) と \(Y\) の相関係数(通常のピアソン相関)
- \( r_{XZ} \) は \(X\) と \(Z\) の相関係数
- \( r_{YZ} \) は \(Y\) と \(Z\) の相関係数
です。この式は、後述する「回帰残差を用いた計算方法」と一致します。
もし \(Z\) が \(X\) と \(Y\) の両方に影響しているならば、偏相関係数は単なる \(X\)–\(Y\) の相関とは異なる値を示します。その結果、「本当はあまり関連がないのに、\(Z\) という要因を介して相関が高く見えていた」ようなケースを見抜ける可能性があります。
3. 「X の影響を除いた Y」と「X の影響を除いた Z」
統計モデルや回帰分析(最小二乗法を使う手法)では、「ある変数が他の変数に与える直線的な影響成分」を取り除くことができます。その際、残差 と呼ばれる「説明しきれなかった部分(誤差)」が、いわば「影響を除いた後のデータ」とみなせます。
3.1. \(X\) による \(Y\) の回帰とその残差
まず、\(Y\) を \(X\) で単回帰してみます。回帰直線(単回帰)の予測値を \(\hat{Y}\) と書くと、
\[ \hat{Y} = \frac{\mathrm{Cov}(X, Y)}{\sigma_X^2} \bigl(X - \mu_X\bigr) \;+\; \mu_Y \]
これは「\(X\) が1単位増えるとき、どのくらい \(Y\) が増えるか」を表す係数 \(\frac{\mathrm{Cov}(X, Y)}{\sigma_X^2}\) を使って、データの平均値周りで線形近似する形になっています。
次に、実際の \(Y\) から予測値 \(\hat{Y}\) を引き算すると、次の残差 \(Y’\) を得ます。
\[ Y’ = Y - \hat{Y} = \bigl(Y - \mu_Y\bigr)-\frac{\mathrm{Cov}(X, Y)}{\sigma_X^2} \bigl(X - \mu_X\bigr) \]
この \(Y’\) が、「\(X\) の影響を除いた \(Y\) の変動分」という位置づけです。つまり、\(Y\) のうち \(X\) で説明できる直線的部分をそぎ落とした「残りの部分」が \(Y’\) になります。
3.2. \(X\) による \(Z\) の回帰とその残差
同様に、\(Z\) を \(X\) で回帰した場合は、
\[ \hat{Z} = \frac{\mathrm{Cov}(X, Z)}{\sigma_X^2} \bigl(X - \mu_X\bigr)+\mu_Z, \]
となり、「\(X\) の影響を除いた \(Z\)」は、
\[ Z’ = Z - \hat{Z} = \bigl(Z - \mu_Z\bigr)-\frac{\mathrm{Cov}(X, Z)}{\sigma_X^2} \bigl(X - \mu_X\bigr) \]
となります。これで、\(Z’\) が 「\(X\) の影響を除いた \(Z\) の変動」 を表します。
3.3. \(X\) の影響を除いた \(Y\) と \(Z\) の相関係数
偏相関係数 \(\rho_{YZ \cdot X}\) とは、「\(X\) という変数の影響を取り除いたうえでの \(Y\) と \(Z\) の相関」を測るための指標です。上で求めた残差同士、
- \(Y’ = Y - \hat{Y}\)
- \(Z’ = Z - \hat{Z}\)
に対する相関係数を、そのまま偏相関係数として定義します。
すなわち、
\[ \rho_{YZ \cdot X} = \frac{\mathrm{Cov}(Y’, Z’)}{\sigma_{Y’}\,\sigma_{Z’}} \]
ここで
- \(\mathrm{Cov}(Y’, Z’) = E[Y’Z’] - E[Y’]\,E[Z’]\)
- \(\sigma_{Y’}^2 = E[Y’^2] - (E[Y’])^2\)
- \(\sigma_{Z’}^2 = E[Z’^2] - (E[Z’])^2\)
です。次に、それぞれの必要な値を計算してみましょう。
4. 導出(残差の平均・共分散・分散)
偏相関係数がどうして先ほどの式になるかを確認する流れを示します。
4.1. (1) 平均
\[ E[Y’] = E\Bigl[(Y - \mu_Y)-\frac{\mathrm{Cov}(X,Y)}{\sigma_X^2}(X - \mu_X)\Bigr] \] \(Y\) の平均は \(\mu_Y\)、\(X\) の平均は \(\mu_X\) なので、
\[ E[Y’] = (E[Y] - \mu_Y)-\frac{\mathrm{Cov}(X,Y)}{\sigma_X^2} (E[X] - \mu_X) = 0 \] 同様に、 \[ E[Z’] = 0 \] となります。要するに、残差の平均は常に 0 だとわかります。
4.2. (2) 共分散
\[ \mathrm{Cov}(Y’, Z’) = E[Y’Z’] \quad (\text{平均が 0 なので } E[Y’]=E[Z’] = 0) \]
この期待値を展開すると、
\[ \begin{align*} E[Y’Z’] &= E\Bigl[ \Bigl\lbrace \bigl(Y - \mu_Y\bigr) - \frac{\mathrm{Cov}(X,Y)}{\sigma_X^2} (X - \mu_X) \Bigr\rbrace \cdot \Bigl\lbrace \bigl(Z - \mu_Z\bigr) - \frac{\mathrm{Cov}(X,Z)}{\sigma_X^2} (X - \mu_X) \Bigr\rbrace\Bigr] \\ &= E\Bigl[ (Y - \mu_Y)(Z - \mu_Z) - \frac{\mathrm{Cov}(X,Y)}{\sigma_X^2} (X - \mu_X)(Z - \mu_Z) - \frac{\mathrm{Cov}(X,Z)}{\sigma_X^2} (X - \mu_X)(Y - \mu_Y) + \frac{\mathrm{Cov}(X,Y) \mathrm{Cov}(X,Z)}{\sigma_X^4} (X - \mu_X)^2 \Bigr] \\ \end{align*} \]
展開すると、
$$= E[(Y - \mu_Y)(Z - \mu_Z)] - \frac{\mathrm{Cov}(X,Y)}{\sigma_X^2} E[(X - \mu_X)(Z - \mu_Z)] - \frac{\mathrm{Cov}(X,Z)}{\sigma_X^2} E[(X - \mu_X)(Y - \mu_Y)] + \frac{\mathrm{Cov}(X,Y) \mathrm{Cov}(X,Z)}{\sigma_X^4} E[(X - \mu_X)^2] \\ $$
それぞれの項は
$$=\underbrace{{E[(Y - \mu_Y)(Z - \mu_Z)]}}_{\mathrm{Cov}(Y,Z)} - \frac{\mathrm{Cov}(X,Y)}{\sigma_X^2} \underbrace{{E[(X - \mu_X)(Z - \mu_Z)]}}_{\mathrm{Cov}(X,Z)} - \frac{\mathrm{Cov}(X,Z)}{\sigma_X^2} \underbrace{{E[(X - \mu_X)(Y - \mu_Y)]}}_{\mathrm{Cov}(X,Y)} + \frac{\mathrm{Cov}(X,Y) \mathrm{Cov}(X,Z)}{\sigma_X^4} \underbrace{{E[(X - \mu_X)^2]}}_{\sigma_X^2}$$
したがって、
\[ \begin{align*} &= \mathrm{Cov}(Y,Z) - \frac{\mathrm{Cov}(X,Y) \mathrm{Cov}(X,Z)}{\sigma_X^2} - \frac{\mathrm{Cov}(X,Y) \mathrm{Cov}(X,Z)}{\sigma_X^2} + \frac{\mathrm{Cov}(X,Y) \mathrm{Cov}(X,Z)}{\sigma_X^2} \\ &= \mathrm{Cov}(Y,Z) - \frac{\mathrm{Cov}(X,Y) \mathrm{Cov}(X,Z)}{\sigma_X^2} \end{align*} \]
相関係数 \(\rho_{XY},\rho_{XZ},\rho_{ZY}\) などを用いて書き直すと、
$$\begin{align*} E[Y’Z’] &= \mathrm{Cov}(Y,Z) - \frac{\mathrm{Cov}(X,Y) \mathrm{Cov}(X,Z)}{\sigma_X^2} \\ &= \rho_{YZ} \sigma_Y \sigma_Z - \frac{(\rho_{XY} \sigma_X \sigma_Y) (\rho_{XZ} \sigma_X \sigma_Z)}{\sigma_X^2} \\ &= \rho_{YZ} \sigma_Y \sigma_Z - \frac{\rho_{XY} \rho_{XZ} \sigma_X^2 \sigma_Y \sigma_Z}{\sigma_X^2} \\ &= \sigma_Y \sigma_Z (\rho_{YZ} - \rho_{XY} \rho_{XZ})\end{align*}$$
4.3. (3) 分散
同様の手順で残差の分散は、$E[Y’]^2=0$より、
\[ \sigma_{Y’}^2 = E[Y’^2] \]
共分散の導出で示した
\[ E[Y’Z’]= \sigma_Y \sigma_Z (\rho_{YZ} - \rho_{XY} \rho_{XZ}) \]
と同様に、残差の分散についても置き換えを行えばよい。すなわち、
\[ E[Y’^2] = \sigma_Y^2 (1 - \rho_{XY}^2), \]
\[ E[Z’^2] = \sigma_Z^2 (1 - \rho_{XZ}^2) \]
4.4. (4) 偏相関係数
最後に偏相関係数を求めると、
\[ \begin{align*} \rho_{YZ \cdot X} &= \frac{\mathrm{Cov}(Y’, Z’)}{\sigma_{Y’}\,\sigma_{Z’}} \\ &= \frac{\sigma_Y \sigma_Z (\rho_{YZ} - \rho_{XY} \rho_{XZ})} {\sigma_Y \sqrt{1 - \rho_{XY}^2} \cdot \sigma_Z \sqrt{1 - \rho_{XZ}^2}} \\ &= \frac{\rho_{YZ} - \rho_{XY} \rho_{XZ}} {\sqrt{(1 - \rho_{XY}^2)(1 - \rho_{XZ}^2)}} \end{align*} \]
こうして「\(X\) の影響を取り除いた \(Y\) と \(Z\) の相関」を、数式として求めることができるわけです。
5. まとめ
- 単純な相関係数だけでは見えてこない「他の要因を除いた関係の強さ」を評価できる。
- 回帰分析の「残差(説明できなかった部分)」に着目することで、取り除きたい変数の影響を排除した相関を計算する仕組みになっている。
たとえば、「ある治療法 (\(X\)) が患者の健康状態 (\(Y\)) に与える影響」を知りたいとき、別の要因 (\(Z\)) が強く絡んでいると単純相関が誤解を招く可能性があります。偏相関を調べることで「\(Z\) の影響を制御」してから改めて \(X\) と \(Y\) の関係を見ることができ、因果関係の推察や要因分析に役立ちます。