統計誤差や残差が発生するのは、測定が決して完全には正確でないからです。観測や測定の過程には必ずばらつきがあり、それが「誤差」や「残差」として現れます。ここでは両者の定義と違い、性質、具体例をわかりやすく説明します。
定義(基本的な違い)
- 統計誤差(sampling error/true error):観測値や標本統計量と「本当の値(母集団の真の値)」との違いを指します。例としては、ある個人の身長とその地域における「母平均(真の平均身長)」との差や、標本平均と母平均の差などが含まれます。実際には母平均などの真の値は観測できないため、統計誤差は通常「未知」です。
- 残差(residual):観測値とモデルや標本によって推定された値(例:サンプル平均や回帰での予測値)との違いです。残差は観測データから直接計算できる「観測可能な推定値」です。回帰分析では残差は yi − ŷi の形で表されます。
数式での関係(単純な平均の場合)
個々の観測値を yi、母平均を μ、標本平均を ȳ(ȳ)とすると、次の分解が成り立ちます。
統計誤差 = yi − μ = (yi − ȳ) + (ȳ − μ)
ここで、(yi − ȳ) が 残差、(ȳ − μ) が 標本平均と母平均の差(推定誤差)です。したがって、統計誤差は「残差」と「推定誤差」の和として表せます。
具体例(身長の例を使って)
ある地域の21歳男性の本当の平均身長(母平均)が仮に μ = 1.75 m とします。無作為に選ばれた1人の男性の身長が yi = 1.80 m であれば:
- この人の観測値と母平均の差(統計誤差)は yi − μ = 0.05 m(5 cm)です(ただし現実には μ は未知)。
- この人を含む n 人の標本の標本平均が ȳ = 1.76 m であれば、この個人の残差は yi − ȳ = 0.04 m(4 cm)です。残差は観測可能です。
残差と統計誤差の性質の違い
- 残差の合計は標本平均を用いる場合、必ず 0 になります(∑(yi − ȳ) = 0)。これは残差が相互に独立ではないことを意味します(残差間に線形制約が存在するため)。
- 一方、統計誤差(各個人の yi − μ)は母平均 μ が固定された値であれば独立なランダム変数であることが一般的です(個々の観測が独立に得られている場合)。その和は必ずしも 0 になりません(∑(yi − μ) = n(ȳ − μ))。
- 回帰分析においては、残差はモデルの予測値に対して観測データがどれだけ乖離しているかを示すもので、最小二乗法(OLS)では残差は説明変数と直交する(平均的に説明変数と相関しない)性質を持ちます。
- 母集団の分散 σ² が既知であれば、標本平均の分布の分散は σ²/n となり、標本平均と母平均の差(推定誤差)は期待値 0、分散 σ²/n を持つ確率変数とみなせます。
回帰モデルでの補足(実務でよく使う考え方)
一般的な回帰モデル yi = f(xi) + εi において、実際の誤差 εi(モデルの真の誤差項)は通常観測できません。残差 ei = yi − ŷi は εi の観測可能な推定量です。OLS では次のような性質があります。
- 残差の合計は 0(定数項があるとき)。
- 残差は説明変数の線形結合と相関が 0(つまり説明変数と直交)になる。
- 残差は真の誤差 εi の良い近似であるが、モデル仕様の誤りや外れ値があると不良な推定になる。
まとめ(要約すると)
- 統計誤差は「観測値と母集団の真の値(unknown)の差」。通常は未知で、標本を通じて確率的に扱う(例:標本平均と母平均の差)。
- 残差は「観測値と推定された値(サンプル平均や回帰予測値)の差」。観測可能で、モデル評価や診断に使われる。
- 数式的には yi − μ = (yi − ȳ) + (ȳ − μ) という分解が成り立ち、統計誤差は「残差 + 推定誤差」に分解できる。
- 残差は合計がゼロになるなどの制約があり独立ではないが、統計誤差(真の母平均との差)は独立な場合が多い。これらの違いを理解することで、データ解析やモデル評価が適切に行えます。