統計的有意性とは?定義・p値・有意水準の歴史(フィッシャーとネイマン解説)
統計的有意性の定義からp値・有意水準の歴史まで、フィッシャーとネイマンの見解をわかりやすく解説。
統計学では、観測や実験で得られた値を表すために変数を使います。得られた値が偶然のばらつきだけで説明できる確率が十分に小さいと判断される場合、その結果は有意であると言います。有意性の検討には、一般に統計的仮説検定が用いられ、そこではまず帰無仮説(効果や差がないという仮定)を設定してからデータがその仮説とどの程度矛盾するかを評価します。
統計的有意性とp値の定義
p値は、「帰無仮説が正しいとしたときに、観測したデータと同等かそれ以上に極端なデータが得られる確率」を表します。記号的にはざっくり次のように書けます:
p = P(観測されたデータまたはより極端なデータ | 帰無仮説が真)
検定では通常、あらかじめ定めた閾値(有意水準、通常はα と表記)とp値を比較します。もし p ≤ α ならば、帰無仮説を棄却して「統計的に有意」と判断します。重要な注意点は次の通りです。
- p値は「帰無仮説が正しい確率」や「結果が偶然である確率そのもの」ではありません。
- p値は効果の大きさ(実用的意義)を直接示しません。効果量や信頼区間も合わせて報告することが重要です。
- p値はサンプルサイズに敏感で、大きなサンプルでは小さな効果でも小さいp値になることがあります。
有意水準の歴史(フィッシャーとネイマン=ピアソン)
統計的有意性の概念は、ロナルド・フィッシャーが1925年に著した「Statistical Methods for Research Workers」の中で整理したことに端を発します。フィッシャーはp値を「証拠の度合い」として扱い、実務上の便宜から帰無仮説を棄却する目安として0.05(5%)をしばしば用いましたが、これは固定的なルールとして厳格に押し付ける意図ではありませんでした。
一方で、1933年にJerzy NeymanとEgon Pearsonが示した枠組みは、検定を意思決定問題として形式化しました。彼らはあらかじめ有意水準α(第一種の誤りの確率)を設定し、また第二種の誤り(β)や検出力(1 − β)を考慮して検定手続を設計することを提案しました。つまり、Neyman–Pearsonは「長期的に見た誤り率の管理」に重きを置いたのに対し、フィッシャーは「観測データのもつ証拠」を重視した、という違いがあります。
第一種・第二種の誤りと検出力
- 第一種の誤り(α):帰無仮説が真のときに誤って棄却する確率(偽陽性)。これが有意水準に対応します。
- 第二種の誤り(β):帰無仮説が偽のときに誤って棄却しない確率(偽陰性)。
- 検出力(power):真の効果があるときに正しく棄却できる確率で、1 − β で表されます。検出力はサンプルサイズ、効果量、許容されるα に依存します。
実務上の注意点と最近の議論
- 0.05は慣習的によく使われますが、研究分野や目的によって適切なαは変わります。重要な発見ではより厳しい閾値(例えば0.005 の提案)を主張する研究者もいます。
- p値依存の二分法(有意/非有意)だけで結論を出すことは避け、効果量、95%信頼区間、事前確率や実務上の意味合いを併せて解釈してください。
- 多重比較やデータの切り替え(p-hacking)は誤検出を増やします。多重検定補正(Bonferroni、FDRなど)や事前登録(preregistration)、解析計画の固定化が推奨されます。
- 再現性の観点から、データ共有や解析コードの公開、検出力を考慮したサンプルサイズ設計が重要です。
現場での実践的な勧め
- 検定結果を報告するときは、p値・効果量・信頼区間を併記する。
- 有意水準は事前に設定し、事後に閾値を変更しない(事前登録が望ましい)。
- 複数検定がある場合は補正を行うか、探索的解析と確証的解析を明確に区別する。
- p値が小さいことは「意味のある効果」を自動的に保証しないので、実務的・理論的意義を必ず検討する。
まとめると、統計的有意性はデータが帰無仮説とどの程度矛盾するかを定量的に示す有用な概念ですが、その解釈には注意が必要です。歴史的にはフィッシャーのp値(証拠の度合い)とNeyman–Pearsonの決定論的枠組み(事前に設定するα・β)という二つの流れがあり、現代の統計実務では両者の長所を理解した上で、効果量や信頼区間、事前登録、多重比較対策などと組み合わせて慎重に結論を出すことが求められます。
質問と回答
Q: 統計的に有意な変数とは何ですか?
A: 変数が統計的に有意であるのは、ある現状の仮定の下で、その結果(またはより極端な結果)を得る確率が、与えられた値より小さい場合です。
Q: 統計的有意性は何に使用されますか?
A: 統計的有意性は、ある現状仮定が真であると仮定した場合の実験結果のありえなさを決定するために使用されます。
Q: 統計的仮説検定とは何に使うのですか?
A:統計的仮説検定は有意性を確認するために用いられます。
Q: 統計的有意性の概念を生み出したのは誰ですか?
A: ロナルド・フィッシャー(Ronald Fisher)が1925年に出版した『Statistical Methods for Research Workers(研究者のための統計的方法)』で、統計的仮説検定を開発した際に統計的有意性の概念を生み出しました。
Q: フィッシャーが帰無仮説を棄却するために提案したカットオフ水準は?
A: フィッシャーは帰無仮説を棄却するのに便利なカットオフ水準として、20分の1の確率(0.05または5%)を提案しました。
Q: データ収集の前に有意水準を設定することを推奨したのは誰ですか?
A: Jerzy NeymanとEgon Pearsonは、データ収集の前にαと呼ばれる有意水準(例えば0.05)を設定することを推奨しました。
Q: フィッシャーは0.05というカットオフ値を固定するつもりだったのですか?
A: いいえ、フィッシャーはこのカットオフ値を固定することを意図していませんでした。1956年に出版された『統計的手法と科学的推論』(Statistical methods and scientific inference)の中で、彼は有意水準は特定の状況に応じて設定することを推奨しています。
百科事典を検索する