スピアマンの順位相関係数とは?定義・計算式・解釈と例
スピアマンの順位相関係数の定義・計算式・解釈を図解と具体例でわかりやすく解説。実務で使える手順とR/Python計算例付き。
数学および統計学で用いられるスピアマンのランクの相関係数(Spearmanの順位相関係数)は、その考案者であるチャールズ・スピアマンにちなんで名付けられた、2変数間の単調な関係の強さを測る非母数的(ノンパラメトリック)な指標です。記号はギリシャ文字のrho(ρ {\displaystyle ✿rho )や、しばしばr s {\displaystyle r_{s}}(
)と表されます。これは、2つのデータセットがどれだけ密接に「順位(ランク)」の上で対応しているかを示す値で、順位付けが可能なデータ(順序尺度や連続値を順位に置き換えて扱う場合)に適しています。
ρ = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {\displaystyle \rho =1-{cfrac {6sum d^{2}}{n(n^{2}-1)}}}}}}}}}}}}}}}.
定義と計算の考え方
基本アイデア:各変数の観測値をそれぞれ順位(ランク)に変換し、同じ観測単位について2つの順位の差 d を求め、その差の二乗 d² を全観測について合計して上の式に代入します。ここで n は観測数、d は同一ケースにおける2つの順位の差です。
代替表現:順位に対して通常のピアソンの相関係数を計算したものがスピアマンの相関係数と同じ値(ただし結びつき(ties)の扱いにより差が出ることあり)になります。すなわち、rank(X) と rank(Y) のピアソン相関を取る方法で求められます。
解釈
- 範囲:ρ の値は -1 から +1 の間です。
- 意味:ρ = +1 は完全な単調増加(順位が完全に一致)を、ρ = −1 は完全な単調減少(片方の順位が反転して一致)を示します。ρ = 0 は単調関係がないことを示唆しますが、非線形かつ非単調な関係がある場合は 0 に近い値でも実際には複雑な関係が存在する場合があります。
- 利用場面:データが順序尺度である場合、外れ値や分布の仮定(正規性)を避けたい場合、または関係が線形でなく単調であると期待される場合に適しています。
結びつき(ties:同値順位)の扱い
観測値に完全に同じ値(同順位)がある場合は、通常それらに「平均順位」を割り当てます(例えば2位と3位が同じ値ならどちらも2.5位)。元の単純な公式は ties がない場合の簡略形なので、ties が多い場合は順位を与えた後にピアソン相関を計算する方法や、ties 補正を含むより複雑な式を用いる必要があります。
統計的検定(有意性の評価)
スピアマンの相関係数が偶然得られたものかどうかを調べる方法は複数あります。小さいサンプル(例えば n が 10 以下)では順列に基づく正確検定(exact permutation test)が使われ、n が大きい場合は正規近似や t 分布近似を用いることが一般的です。近似的には下式のようにして t 値を計算し、自由度 n−2 の t 分布で検定することがあります(ただしこれは近似):
- t ≈ r_s * sqrt((n - 2) / (1 - r_s^2))
より厳密には、可能な順位の全順列に対する分布を用いた確率(p値)を求める方法が推奨されます。
具体例(計算の流れ)
たとえば、異なるコンピュータがどれだけ高いか(高さ)と、そのコンピュータがどれだけ速いか(処理速度)のデータがあるとします。6台のコンピュータについて次のような観測があったとします(高さは高いほど良い、速度は大きいほど良い):
- A: 高さ 150, 速度 2.3
- B: 高さ 160, 速度 2.8
- C: 高さ 140, 速度 1.9
- D: 高さ 170, 速度 3.0
- E: 高さ 155, 速度 2.4
- F: 高さ 165, 速度 2.5
まず各変数を順位付け(ここでは「1 = 最も大きい」)します。高さの順位:D(1), F(2), B(3), E(4), A(5), C(6)。速度の順位:D(1), B(2), F(3), E(4), A(5), C(6).
各ケースについて d = 順位(高さ) − 順位(速度) を求め、d² を計算します:
- D: d = 1 − 1 = 0, d² = 0
- F: d = 2 − 3 = −1, d² = 1
- B: d = 3 − 2 = 1, d² = 1
- E: d = 4 − 4 = 0, d² = 0
- A: d = 5 − 5 = 0, d² = 0
- C: d = 6 − 6 = 0, d² = 0
したがって Σd² = 0 + 1 + 1 + 0 + 0 + 0 = 2。これを公式に代入すると(n = 6):
- ρ = 1 − 6Σd² / [n(n² − 1)] = 1 − (6 × 2) / [6(36 − 1)] = 1 − 12 / 210 ≈ 0.9429
この例ではρ ≈ 0.943 となり、高さと速度はかなり強い単調な正の関係にあると解釈できます。
まとめ(いつ使うか)
- 順序データや順位に変換したデータの関係を評価したいときに適している。
- 線形性の仮定や正規性を必要としないため、外れ値に対して比較的頑健。
- 関係が単調であれば線形でない場合でも高い値を示すことができる。ただし単調でない複雑な関係は捉えられない。
補足として、計算や検定を行う際はデータに同値順位(ties)が多いかどうかを確認し、必要ならば順位に基づくピアソン相関や専用のties補正を用いることをおすすめします。
それを解決するために
ステップ1
r s {displaystyle r_{s}}を計算するには、まずデータの各部分に順位をつけなければならない。ここでは、コンピュータとその速度を例にする。
つまり、一番値段が安いパソコンはランク1になる。それより上のものは2になります。そして、それがすべてランク付けされるまで上昇していきます。これを両方のデータセットに対して行う必要があります。
| 価格 ($) | R a n k 1 {displaystyle Rank_{1}}} | 速度 (GHz) | R a n k 2 {displaystyle Rank_{2}}} | |
| A | 200 | 1 | 1.80 | 2 |
| B | 275 | 2 | 1.60 | 1 |
| C | 300 | 3 | 2.20 | 4 |
| D | 350 | 4 | 2.10 | 3 |
| E | 600 | 5 | 4.00 | 5 |
ステップ2
次に、2つのランクの差を求めます。その差を乗算することを 二乗という。その差を d {displaystyle d}といい、 d {displaystyle d
}を二乗したときに得られる数を d 2 {displaystyle d^{2}という。}
.
| R a n k 1 {displaystyle Rank_{1}}} | R a n k 2 {displaystyle Rank_{2}}} | d {displaystyle d}の | d 2 {displaystyle d^{2}}} |
| 1 | 2 | -1 | 1 |
| 2 | 1 | 1 | 1 |
| 3 | 4 | -1 | 1 |
| 4 | 3 | 1 | 1 |
| 5 | 5 | 0 | 0 |
ステップ3
データの数を数えてみましょう。このデータには1から5までのランクがあるので、5個のデータがある。この数をn {displaystyle n} と呼ぶ。
ステップ4
最後に、これまでに計算してきたことをすべてこの式で使いましょう:r s = 1 - 6 ∑ d 2 n ( n 2 - 1 ) {displaystyle r_{s}=1-{cfrac {6sum d^{2}}{n(n^{2}-1)}}}}}}。.
∑(゚Д゚)d 2 {\style d^2}}列にあった全ての数字の合計を 取るということだよ。
.
∑(゚Д゚)ノ Σ(゚Д゚)ノ Σ(゚Д゚)ノ Σ(゚Д゚)ノ
だから、∑ d 2 {displaystyle ¶sum d^{2}は、1 + 1 + 1 + 1 + 1 {displaystyle 1+1+1+1+1
}で、4だ。 式では、それに6をかけて、24だ。
n (n 2 - 1 ) {\displaystyle n(n^{2}-1)} is 5 × (25 - 1 ) {\displaystyle 5times (25-1)}
which is 120.
だから、r s {displaystyle r_{s}}を見つけるためにをするだけで、1 - 24 120 = 0.8 {displaystyle 1-{cfrac {24}{120}=0.8
} .
したがって、このデータセットについては、スピアマンの順位相関係数は0.8です。
数字の意味
r s {\displaystyle r_{s}}は常に-1と1の間の答えを与える。 間の数字は目盛りのようなもので、-1は非常に強いリンク、0はリンクなし、1は非常に強いリンクである。1と-1の違いは、1は正の相関、-1は負の相関です。r s {\displaystyle r_{s}}の
値が-1のデータのグラフは、線と点が左上から右下に向かっていることを除いて、示されているグラフのようになる。
例えば、先ほどのデータでは、r s {displaystyle r_{s}}は0.8でした。これは正の相関があることを意味する。1に近いということは、2つのデータの間に強いつながりがあることを意味している。つまり、この2つのデータはリンクしていて、一緒に上昇していると言えます。もしそれが-0.8だったら、リンクしていて、一方が上がればもう一方は下がると言えます。
2つの数字が同じ場合
データをランキングするときに、同じ数字が2つ以上あることがある。これがr s {displaystyle r_{s}}で起こった場合の場合、同じランクの平均または平均を取ります。これらは同点ランクと呼ばれます。これを行うには、同点の数字を、あたかも同点ではないかのようにランク付けします。次に、彼らが持っているであろうすべてのランクを加算し、どのくらいの数があるかでそれを割ります。例えば、スペルテストで異なる人々がどれだけうまくいったかをランキングしていたとします。
| テストスコア | ランク | 順位(同点) |
| 4 | 1 | 1 |
| 6 | 2 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}=3}}。 |
| 6 | 3 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}=3}}。 |
| 6 | 4 | 2 + 3 + 4 3 = 3 {\displaystyle {\tfrac {2+3+4}{3}=3}}。 |
| 8 | 5 | 5 + 6 2 = 5.5 {\displaystyle {\tfrac {5+6}{2}}=5.5}}。 |
| 8 | 6 | 5 + 6 2 = 5.5 {\displaystyle {\tfrac {5+6}{2}}=5.5}}。 |
これらの数値は、通常のランクと全く同じように使用されます。
関連ページ
質問と回答
Q:スピアマンの順位相関係数とは何ですか?
A:スピアマンの順位相関係数は、2つのデータセットがどれだけ密接にリンクしているかを示す相関性の尺度です。最高位から最低位までというように、順番に並べることができるデータにのみ使用することができます。
Q: スピアマンの順位相関係数は誰が作ったのですか?
A:チャールズ・スピアマンがスピアマンの順位相関係数を作成しました。
Q:スピアマンの順位相関係数の一般式はどのように書かれるのですか?
A:スピアマンの順位相関係数の一般式は、ρ = 1 - 6∑d2/n(n2-1) で表されます。
Q:スピアマンの順位相関係数はいつ使うべきですか?
A:スピアマンの順位相関係数は、2つのデータセットがどの程度密接にリンクしているか、またリンクしているかどうかを確認したいときに使用します。
Q:どのような種類のデータを扱うのですか?
A:高いものから低いものへと順番に並べることができるデータであれば、どのようなタイプのものでも使えます。
Q: この指標を使用する例を教えてください。
A: この尺度を使用する例として、異なるコンピュータがどれだけ高価かというデータと、コンピュータがどれだけ速いかというデータがある場合、r_sを使用して、それらがリンクしているかどうか、またどれだけ密接にリンクしているかを確認することができるだろう。
百科事典を検索する