正規分布(ガウス分布)とは:定義・性質・標準正規分布と中心極限定理
正規分布の定義・性質、標準正規分布と中心極限定理を図解と例でわかりやすく解説。統計・データ分析の基礎が身につく入門ガイド。
正規分布とは、確率分布の一つです。カール・フリードリヒ・ガウスが発見したことから、ガウス分布とも呼ばれています。正規分布は、連続した確率分布です。科学の多くの分野で重要な役割を果たしています。正規分布は、同じ一般的な形をした分布のファミリーです。これらの分布は、位置とスケールのパラメータで異なります。分布の平均(「平均」)はその位置を、標準偏差(「変動」)はスケールを定義します。
標準正規分布(Z分布とも呼ばれる)は、平均が0、分散が1の正規分布である(右図の緑の曲線)。確率密度のグラフがベルの形をしていることからベルカーブと呼ばれることもあります。
多くの値は、正規分布に従います。これは、ある事象が他のランダムな事象の和である場合、その事象は正規分布になるという中心極限定理があるからです。いくつかの例を挙げましょう。
定義と確率密度関数(PDF)
平均 μ、標準偏差 σ (>0) を持つ正規分布の確率密度関数は次の式で与えられます。
f(x) = 1 / (σ √(2π)) * exp( - (x - μ)^2 / (2 σ^2) )
ここで、分散は σ^2 です。分布は全域で連続かつ滑らかで、中心 μ を対称の中心とする単峰(1つの山)を持ちます。
主な性質
- 対称性:平均 μ を中心に左右対称で、平均=中央値=最頻値(mode)です。
- 線形変換に関する閉包性:X が N(μ, σ^2) のとき、aX + b (a ≠ 0) も正規分布で、平均は aμ + b、分散は a^2 σ^2 になります。
- 独立な正規変数の和:独立な X_i ∼ N(μ_i, σ_i^2) の和は正規分布で、和の平均は Σμ_i、分散は Σσ_i^2 です。
- モーメント母関数(MGF):M_X(t) = exp( μ t + (σ^2 t^2) / 2 )。特性関数も同様に解析的に表せます。
- 裾の振る舞い:ガウス分布は指数型の尾を持ち、重い裾(べき乗則)を持つ分布よりは極端な外れ値が出にくいです。
標準正規分布とZスコア
標準正規分布は μ = 0、σ = 1 の場合です。任意の正規変数 X ∼ N(μ, σ^2) は次の変換で標準正規に変換できます:
Z = (X − μ) / σ
この Z を用いることで、確率 P(a ≤ X ≤ b) を標準正規の累積分布関数(Z表)や統計ソフトで簡単に求められます。標本を標準化することで、異なる平均・分散を持つデータを比較できます。
経験則(68–95–99.7 ルール)
- 平均付近の約 68% が μ ± 1σ の範囲に入る。
- 約 95% が μ ± 2σ の範囲に入る。
- 約 99.7% が μ ± 3σ の範囲に入る。
この経験則はデータが正規に近い場合の直感的指標としてよく使われます。
中心極限定理(CLT)との関係
中心極限定理は、独立同分布(i.i.d.)の確率変数の和(または平均)を適切に標準化すると、その分布が大きなサンプルサイズで正規分布に近づくことを示します。形式的には、X_i が平均 μ、分散 σ^2 を持つ i.i.d. ならば、
(Σ_{i=1}^n X_i − nμ) / (σ √n) → N(0,1)(分布収束)
この定理により、母分布が正規でなくても、サンプル平均の分布を正規近似できるため、推定や検定で正規性を仮定することが広く行われます。ただし、独立性や分散有限などの条件や、収束の速さには注意が必要です。
実世界での例と応用
- 身長や体重(ある集団内)、測定誤差や実験のランダム誤差。
- IQや多くの試験の得点(標準化したスコア)。
- 統計的推定・信頼区間・仮説検定:多くの手法は正規分布の性質に基づいて導かれます。
- 回帰分析や時系列分析の誤差項のモデル化(ただし現実のデータではしばしば非正規性が見られる)。
推定と検定での扱い
- 母平均の推定:正規母集団を仮定すると、標本平均は正規分布に従い、t検定やZ検定を利用できます。
- 母分散の推定:標本分散の不偏推定は 1/(n−1) Σ (x_i − x̄)^2。最大尤度推定(MLE)では 1/n を使うため扱いに注意が必要です。
- 正規性の検定:Shapiro–Wilk 検定、Kolmogorov–Smirnov 検定、Q–Q プロットなどでデータの正規性を評価します。
計算方法と注意点
- 確率や分位点は Z 表や統計ソフト(R, Python の scipy.stats.norm など)で簡単に求められます。
- 実データが正規分布から外れる場合(裾が重い、歪んでいる、外れ値が多い等)は、正規近似や手法の前提が破れることがあるため、ロバスト手法や分布に依存しない手法を検討します。
- サンプルサイズが小さいときは、母分布が本当に正規であるかを慎重に確認する必要があります。
まとめ(ポイント)
- 正規分布は平均 μ と標準偏差 σ によって特徴づけられる連続分布で、ベル型の単峰・左右対称の形を持つ。
- 標準化により任意の正規変数を標準正規分布に変換でき、確率の計算が容易になる。
- 中心極限定理により、個々の観測分布が非正規でもサンプル平均は大きな n で正規に近づく。
- 実務では正規性の検討、推定方法や検定の前提条件の確認が重要。
質問と回答
Q: 正規分布とは何ですか?
A:正規分布は、科学の多くの分野で非常に重要な確率分布です。
Q: 誰が正規分布を発見したのですか?
A:正規分布は、カール・フリードリッヒ・ガウスによって初めて発見されました。
Q: 正規分布の位置パラメータとスケールパラメータは何を表しているのですか?
A:分布の平均(「平均」)はその場所を定義し、標準偏差(「ばらつき」)は正規分布のスケールを定義しています。
Q:正規分布の位置とスケールのパラメータはどのように表現されますか?
A:正規分布の平均と標準偏差は、それぞれμとσという記号で表されています。
Q: 標準正規分布とは何ですか?
A:標準正規分布(Z分布ともいう)は、平均が0、標準偏差が1である正規分布です。
Q: なぜ標準正規分布はよくベルカーブと呼ばれるのですか?
A: 標準正規分布は、その確率密度のグラフが鐘のように見えることから、しばしばベルカーブと呼ばれています。
Q: なぜ多くの値は正規分布に従うのですか?
A: 多くの値が正規分布に従うのは、ある事象が同一だがランダムな事象の和である場合、正規分布になるという中心極限定理があるためです。
百科事典を検索する