スチューデントのt分布とは?定義・性質・小標本での使い方とt検定

スチューデントのt分布を図解でやさしく解説。定義・性質、自由度と小標本での使い方、t検定や信頼区間の実践例まで丁寧に紹介。

著者: Leandro Alegsa

Studentのt分布は、1908年にWilliam Sealy Gossetによって開発された確率分布です。 Studentは、彼が分布を記述した論文を発表したときに使用したペンネームです。Gossetは醸造所で働いていて、小さなサンプルの問題、例えば大麦の化学的性質の問題に興味を持っていました。彼が分析した問題では、サンプルサイズは3つにもなります。ペンネームの由来については諸説ありますが、一つはゴセットの雇用主が科学論文を公にする際に本名ではなくペンネームを用いることを好んだため、彼が自分の身元を隠すために"学生"という名を使ったというものです。別の説では、醸造所が原料の品質テストに用いるt検定の存在を競合他社に知られたくなかったためとも言われます。

定義と導出(簡潔な説明)

標本が正規分布 N(μ, σ²) から独立に n 個観測されるとき、標本平均 x̄ と標本不偏分散 s² を用いて次の統計量を定義します。

t = (x̄ − μ) / (s / √n)

ここで s は標本標準偏差、自由度 ν は n−1 です。この比が従う確率分布がスチューデントのt分布です。導出の直感は、分子が平均が既知の正規分布に従う量(正規分布に比例)、分母が独立した χ² に基づく標準化(標本分散の平方根)であるため、これらの比が特定の形の確率密度をとる、というものです。

密度関数は解析的に表せます(ν を自由度とすると):

f(t) = Γ((ν+1)/2) / (√(νπ) Γ(ν/2)) (1 + t²/ν)^{−(ν+1)/2}

(ここでは Γ はガンマ関数)

主な性質

  • 対称性と形: t分布は正規分布と同様に左右対称でベル型ですが、裾(尾)がより重い(外れ値をとりやすい)特徴があります。
  • 自由度による変化: 自由度 ν が大きくなるほど t分布は標準正規分布 N(0,1) に近づき、ν → ∞ で厳密に N(0,1) になります。
  • 期待値と分散: 期待値は 0(ν > 1 のとき)、分散は ν/(ν−2)(ν > 2 のとき)で、ν が小さいほど分散は大きくなります。
  • 裾の重さ: 小さな ν では裾が非常に重く、極端値が生じる確率が正規分布より高くなります。これは、分母に標本分散が入ることにより分母の変動が大きくなるためです。
  • 関係性: 正規分布と χ² 分布から構成される比として導出でき、回帰分析やベイズ統計の一部のモデルでも現れます。

t検定と実務での使い方

t分布は小標本下での推測において中心的役割を果たします。よく使われる手法を挙げます。

  • 1標本t検定:母平均 μ の仮説検定。統計量は t = (x̄ − μ0) / (s / √n)、自由度 ν = n − 1。棄却域は t の分布の上下の確率を用いて決めます。
  • 対応のある(ペア)t検定:同じ対象の前後での差の平均が 0 かを検定。差の平均と差の標準偏差を用いて1標本t検定と同様に扱います。
  • 2標本t検定(等分散):2つの独立標本の平均差を検定する際、両母分散が等しいと仮定する場合にプールした分散を用いて自由度 ν = n1 + n2 − 2 の t 分布を使います。
  • Welchのt検定(不等分散):両母分散が等しくないと考えられるときに用いる方法で、統計量自体は似ていますが、自由度はWelch–Satterthwaiteの近似により実効的に計算します(小数になることがあります)。
  • 信頼区間:母平均の 100(1−α)% 信頼区間は x̄ ± t_{α/2,ν}·(s/√n)。ここで t_{α/2,ν} は自由度 ν の t 分布の上側 α/2 分位点です。
  • 回帰分析:単回帰や重回帰における回帰係数の検定や信頼区間は、係数の推定値を標準誤差で割った値が(適切な仮定の下で)t分布に従うことを利用します。

実務上の注意点

  • t分布に基づく検定や区間は、母集団が正規分布に従うことを前提に導出されます。標本サイズが非常に小さい場合(例:n ≤ 5程度)は正規性の仮定に敏感になります。中程度以上(例えば n ≥ 30)になると中心極限定理により正規近似が有効になり、t分布と正規分布の差は小さくなります。
  • データに強い非正規性(歪みや異常値)がある場合は、t検定では誤った結論に至ることがあります。その場合はロバスト手法やノンパラメトリック検定(例:ウィルコクソン検定)を検討してください。
  • 2標本検定で等分散を仮定するかどうかは結果に影響します。等分散の根拠がない場合、Welchのt検定が一般に推奨されます。

簡単な数式例(信頼区間)

母平均 μ の 95% 信頼区間(自由度 ν = n−1)は

x̄ ± t_{0.025,ν} · (s / √n)

たとえば n = 10、x̄ = 5.2、s = 1.4 のとき、ν = 9 の t_{0.025,9} ≈ 2.262 を使って区間を計算します。

まとめ

スチューデントのt分布は、特に標本サイズが小さいときに未知の母分散を推定しながら平均に関する推論を行うために不可欠な道具です。自由度が小さいほど裾が重くなり、慎重な解釈が必要です。一般的な利用場面としては1標本・2標本・対応のあるt検定、信頼区間、回帰係数の検定などがあり、実務ではデータの正規性や分散の等質性を確認したうえで適切な検定を選ぶことが重要です。

(参考)上で述べた背景や応用は、Gosset が直面したような、小さいサンプルでの実務的な問題から生まれました。標本サイズが小さいため、標準偏差を推定することは困難であり、かつ多くの場合サンプルの確率分布が不明だったという現実的な状況が、t分布の重要性を生み出しました。

補足:正規分布は母集団分布を記述する一方、t分布は母集団から抽出された標本に基づく統計量の分布を記述します。サンプルサイズに応じてt分布は変わり、サンプルが大きいほど正規分布に近づきます。先に示した数式や性質は、t分布が統計的検定や区間推定の基盤をなしていることを示しています。{\displaystyle {\sqrt {n}}}

質問と回答

Q:スチューデントのt分布とは何ですか?


A:スチューデントのt分布は、1908年にウィリアム・シーリー・ゴセットによって開発された確率分布です。母集団から抽出されたサンプルを記述し、サンプルサイズが大きくなるほど正規分布に似てきます。

Q:スチューデントのt分布は誰が開発したのですか?


A:ウィリアム・シーリー・ゴセットが1908年にスチューデントのt分布を開発しました。彼は、それを説明する論文を発表したとき、「スチューデント」というペンネームを使いました。

Q:スチューデントのt分布にはどのような使い道があるのですか?


A:スチューデントのt分布は、2つの標本平均の差の統計的有意性を評価するスチューデントのt検定、2つの母平均の差の信頼区間の構築、線形回帰分析など広く使われている多くの統計分析で役立っている。また、正規分布のデータのベイズ解析にも利用されます。

Q:サンプルサイズはt分布の形状にどのような影響を与えるのですか?


A:サンプルサイズが大きければ大きいほど、より正規分布に近い形になります。標本サイズが異なれば,それを記述するt分布も異なる。

Q:スチューデントのT分布と正規分布の間には何か関係があるのでしょうか?


A:はい。正規分布が母集団全体を記述するのに対して,スチューデントのT分布はそれらの母集団から抽出された標本を記述します。したがって,これらは類似していますが,それぞれの大きさによって異なります。上記のように,大きなサンプルは,小さなサンプルよりもより正規分布に似ている傾向があります。

Q:このタイプの分布に他の名前はありますか?


A:ありません。この種の分布は「スチューデントのT分布」として知られており、開発者のウィリアム・シーリー・ゴセットがこの分布に関する論文を発表する際に「スチューデント」というペンネームを使ったことから、この名前が付けられました。


百科事典を検索する
AlegsaOnline.com - 2020 / 2025 - License CC3