数学および統計学で用いられるスピアマンのランクの相関係数(Spearmanの順位相関係数)は、その考案者であるチャールズ・スピアマンにちなんで名付けられた、2変数間の単調な関係の強さを測る非母数的(ノンパラメトリック)な指標です。記号はギリシャ文字のrho(ρ {\displaystyle ✿rho )や、しばしばr s {\displaystyle r_{s}}(
)と表されます。これは、2つのデータセットがどれだけ密接に「順位(ランク)」の上で対応しているかを示す値で、順位付けが可能なデータ(順序尺度や連続値を順位に置き換えて扱う場合)に適しています。
ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{cfrac {6sum d^{2}}{n(n^{2}-1)}}}}}}}}}}}}}}}.
定義と計算の考え方
基本アイデア:各変数の観測値をそれぞれ順位(ランク)に変換し、同じ観測単位について2つの順位の差 d を求め、その差の二乗 d² を全観測について合計して上の式に代入します。ここで n は観測数、d は同一ケースにおける2つの順位の差です。
代替表現:順位に対して通常のピアソンの相関係数を計算したものがスピアマンの相関係数と同じ値(ただし結びつき(ties)の扱いにより差が出ることあり)になります。すなわち、rank(X) と rank(Y) のピアソン相関を取る方法で求められます。
解釈
- 範囲:ρ の値は -1 から +1 の間です。
- 意味:ρ = +1 は完全な単調増加(順位が完全に一致)を、ρ = −1 は完全な単調減少(片方の順位が反転して一致)を示します。ρ = 0 は単調関係がないことを示唆しますが、非線形かつ非単調な関係がある場合は 0 に近い値でも実際には複雑な関係が存在する場合があります。
- 利用場面:データが順序尺度である場合、外れ値や分布の仮定(正規性)を避けたい場合、または関係が線形でなく単調であると期待される場合に適しています。
結びつき(ties:同値順位)の扱い
観測値に完全に同じ値(同順位)がある場合は、通常それらに「平均順位」を割り当てます(例えば2位と3位が同じ値ならどちらも2.5位)。元の単純な公式は ties がない場合の簡略形なので、ties が多い場合は順位を与えた後にピアソン相関を計算する方法や、ties 補正を含むより複雑な式を用いる必要があります。
統計的検定(有意性の評価)
スピアマンの相関係数が偶然得られたものかどうかを調べる方法は複数あります。小さいサンプル(例えば n が 10 以下)では順列に基づく正確検定(exact permutation test)が使われ、n が大きい場合は正規近似や t 分布近似を用いることが一般的です。近似的には下式のようにして t 値を計算し、自由度 n−2 の t 分布で検定することがあります(ただしこれは近似):
- t ≈ r_s * sqrt((n - 2) / (1 - r_s^2))
より厳密には、可能な順位の全順列に対する分布を用いた確率(p値)を求める方法が推奨されます。
具体例(計算の流れ)
たとえば、異なるコンピュータがどれだけ高いか(高さ)と、そのコンピュータがどれだけ速いか(処理速度)のデータがあるとします。6台のコンピュータについて次のような観測があったとします(高さは高いほど良い、速度は大きいほど良い):
- A: 高さ 150, 速度 2.3
- B: 高さ 160, 速度 2.8
- C: 高さ 140, 速度 1.9
- D: 高さ 170, 速度 3.0
- E: 高さ 155, 速度 2.4
- F: 高さ 165, 速度 2.5
まず各変数を順位付け(ここでは「1 = 最も大きい」)します。高さの順位:D(1), F(2), B(3), E(4), A(5), C(6)。速度の順位:D(1), B(2), F(3), E(4), A(5), C(6).
各ケースについて d = 順位(高さ) − 順位(速度) を求め、d² を計算します:
- D: d = 1 − 1 = 0, d² = 0
- F: d = 2 − 3 = −1, d² = 1
- B: d = 3 − 2 = 1, d² = 1
- E: d = 4 − 4 = 0, d² = 0
- A: d = 5 − 5 = 0, d² = 0
- C: d = 6 − 6 = 0, d² = 0
したがって Σd² = 0 + 1 + 1 + 0 + 0 + 0 = 2。これを公式に代入すると(n = 6):
- ρ = 1 − 6Σd² / [n(n² − 1)] = 1 − (6 × 2) / [6(36 − 1)] = 1 − 12 / 210 ≈ 0.9429
この例ではρ ≈ 0.943 となり、高さと速度はかなり強い単調な正の関係にあると解釈できます。
まとめ(いつ使うか)
- 順序データや順位に変換したデータの関係を評価したいときに適している。
- 線形性の仮定や正規性を必要としないため、外れ値に対して比較的頑健。
- 関係が単調であれば線形でない場合でも高い値を示すことができる。ただし単調でない複雑な関係は捉えられない。
補足として、計算や検定を行う際はデータに同値順位(ties)が多いかどうかを確認し、必要ならば順位に基づくピアソン相関や専用のties補正を用いることをおすすめします。