統計学や確率論において、相関とは2つのデータセットがどれだけ密接に関係しているかを意味する。
相関関係は、必ずしも一方が他方を引き起こすことを意味するものではありません。第三の要因が絡んでいる可能性は大いにあります。
相関は通常、2つの方向のどちらかです。正または負である。正であれば、2つのセットは一緒に上昇する。負の場合は、一方が上昇し、他方が下降する。
相関関係については、さまざまな状況に応じて多くの異なる測定方法が用いられます。例えば、散布図では、相関の方向を示すために最良適合の線を描きます。
定義と基本的な性質
相関は「2変数間の結びつきの強さと向き」を示します。数値的には「相関係数(correlation coefficient)」で表され、多くの場合はピアソンの積率相関係数 r が使われます。r の値は -1 から +1 の範囲を取り、
- r = +1:完全な正の線形関係
- r = -1:完全な負の線形関係
- r = 0:線形相関がない(非線形な関係はあり得る)
ピアソンの相関係数は、共分散を各変数の標準偏差で割った値として定義されます(r = cov(X,Y) / (σ_X σ_Y))。
相関の種類(向きと強さ)
- 正の相関:片方が増えるともう片方も増える傾向。
- 負の相関:片方が増えるともう片方が減る傾向。
- 無相関:線形な結びつきが見られない(ただし非線形関係は存在するかもしれない)。
相関の強さは r の大きさで判断します。目安としては Cohen の基準がよく引用され、|r| ≈ 0.1(小)、≈ 0.3(中)、≈ 0.5(大)ですが、分野や目的に応じて実用的な解釈は異なります。
主な測定法と可視化
- ピアソン相関係数:線形関係を測る最も一般的な方法。連続変数・正規分布を仮定する場面でよく使われる。
- スピアマン順位相関(Spearman rho):順位に基づく相関。単調(monotonic)だが非線形な関係や外れ値に対して頑健。
- ケンドールの順位相関(Kendall's tau):順位の一致・不一致を使う別の順位相関係数で、小サンプルでも安定しやすい。
- 相関行列・ヒートマップ:多変量データで変数間の相関を一覧するのに便利。
- 散布図(scatter plot):まず視覚的に関係の有無・形状・外れ値を確認するのが重要。最良適合線(回帰直線)を描くと線形性の確認に役立つ。
統計的検定と信頼性
相関係数の有意性は検定によって評価できます。ピアソンの r の場合、帰無仮説「真の相関がゼロ」に対して t 検定を用いることが多く、標本サイズ n が小さいと推定の不確かさが大きくなります。信頼区間や p 値を併せて報告すると解釈が明確になります。
注意すべき前提:ピアソン相関の推論には通常、線形性・等分散性(等分散)・正規性(特に小標本での検定)などの仮定が関わります。これらが満たされない場合はスピアマンなどの順位法やデータ変換を検討してください。
相関と因果関係の違い(よくある誤解)
重要:相関は因果関係を示さない。相関が見られても、次のいずれかの可能性があるだけです。
- X が Y を引き起こす(因果)
- Y が X を引き起こす(逆因果)
- 第三の変数 Z が X と Y の両方に影響している(交絡)
- 偶然や測定誤差・サンプリングバイアスによる見かけの相関(偽相関)
有名な例として「アイスクリーム消費量と溺死者数に正の相関がある」ことがありますが、これは暑さ(共通の原因)が両方を増加させるための偽相関です。また、シンプソンのパラドックスのように、集計方法次第で相関の方向が変わることもあります。
因果推論に向けた手法(相関から一歩進む)
- ランダム化比較試験(RCT):因果を確立する最も強い方法。
- 操作変数法(Instrumental Variables):交絡がある場合に有効な手法。
- 回帰による調整・部分相関:既知の交絡因子を統制して残差同士の相関を見る。
- 時系列データでは Granger 因果性検定:予測情報の観点から因果の可能性を評価。
- 因果推論フレームワーク(潜在変数モデル、差分の差分、傾向スコア法など)
実務的なアドバイス
- まずは散布図でデータを可視化し、外れ値や非線形性を確認する。
- 目的に応じて適切な相関指標を選ぶ(ピアソン vs スピアマン vs ケンドール)。
- 相関の強さだけで結論を出さず、統計的有意性(p 値・信頼区間)と実務上の意味を両方考慮する。
- 因果関係を主張するには追加の設計(RCT や適切な観察データ分析)や理論的根拠が必要。
- 複数の変数を扱う場合は相関行列や回帰分析、部分相関分析で交絡の可能性を検討する。
まとめ
相関は変数間の「結びつき」を量的に表す重要な指標ですが、因果関係とは別概念です。測定法(ピアソン・スピアマン・ケンドール)や可視化を使って関係の性質を正しく把握し、必要なら因果推論の手法を用いて慎重に解釈してください。
