大数の法則(LLN)は統計学定理である。簡単にいうと、同じ条件で独立に繰り返し行われるランダムな観測を多数集めると、その観測値の平均は時間が経つにつれて安定し、理論上の平均に近づいていくという法則です。

直感的な説明

例えば、ある確率的な試行を何度も繰り返したとき、試行ごとに結果が違っていても、集めた結果の平均は大きな揺らぎを減らしていきます。初めは平均が大きく上下しますが、試行回数を増やすと平均値は次第に安定し、ある値の周りに収束する、というのが大数の法則の直感です。

形式的な定義(簡潔に)

独立同分布(iid:independent and identically distributed)なランダム変数 X1, X2, … が存在し、それぞれの期待値 E[X_i] = μ が有限であるとき、標本平均

X̄_n = (1/n) ∑_{i=1}^n X_i

は n → ∞ において μ に収束します。ここでの「収束」の意味には主に二つあります:

  • 弱大数の法則(Weak LLN):任意の ε > 0 に対し P(|X̄_n − μ| > ε) → 0(確率収束)
  • 強大数の法則(Strong LLN):P(lim_{n→∞} X̄_n = μ) = 1(ほとんど確実な収束)

弱法則は比較的簡単な条件(例えば分散が有限)で示せ、チェビシェフの不等式がよく使われます。強法則はやや強い前提やより発展的な手法を必要としますが、より強い収束を保証します。

サイコロによる具体例

サイコロを1回振ったときの目は1〜6のいずれかで、各目の出る確率は等しいとします。このとき1回の期待値(母平均、すなわち期待値)は

(1 + 2 + 3 + 4 + 5 + 6) / 6 = 3.5

つまりサイコロを非常に多く振れば振るほど、観測された目の平均は3.5の近くに落ち着いてきます。上述の一般的事実を、この具体例に当てはめたものが大数の法則の典型的な説明です。

元のデモンストレーションとして、ある実験では多数回のサイコロの平均をプロットしたグラフが示されています。最初は平均が大きく振れますが、試行回数が増えれば増えるほど平均は3.5付近で安定していきます:

A demonstration of the Law of Large Numbers using die rolls

収束の速さ(分散と標準誤差)

収束の速度は分散に依存します。サイコロの1回の分散は

Var(X) = E[X^2] − (E[X])^2 = (1^2+…+6^2)/6 − 3.5^2 = 35/12 ≈ 2.9167

したがって標準偏差は約1.7078です。標本平均の標準誤差(標準偏差の平均に対する)はおおよそ σ/√n で表され、nが増えると1/√nの速さで小さくなります。例えば n = 100 のとき標準誤差は約 1.7078/10 ≈ 0.1708 で、95%の概算信頼区間は約 ±1.96×0.1708 ≈ ±0.335 になります。つまり100回振った平均はおおむね 3.5 ± 0.335 の範囲に入ることが期待されます。

中心極限定理との関係

大数の法則は平均が期待値に近づくことを保証しますが、その「ズレ」がどのように分布するかまでは述べません。ズレの大きさ(X̄_n − μ)は中心極限定理(CLT)によって、nが大きいとき正規分布に近づき、標準誤差のスケール(1/√n)で振動することが示されます。これにより、平均のばらつきの大きさを定量的に評価できます。

実務上の意味と注意点

  • モンテカルロ法やシミュレーション:期待値を平均で推定する際に大数の法則は根拠となります。ランダムサンプルを増やせば推定値は収束します。
  • ギャンブルや短期の観測:大数の法則は長期的な挙動について述べるため、短期間での結果が期待値から大きく外れることは普通に起こります。短期の変動を過小評価してはいけません。
  • 前提条件の確認:独立性や同一分布、期待値の存在など前提が満たされない場合、結果は異なることがあります。時系列データや強い相関があるデータでは注意が必要です。

まとめ

大数の法則は、独立で同じ分布の試行を多数繰り返すと標本平均が期待値に近づくという基本的かつ重要な結果です。サイコロの例はこの直感をつかむのに最適で、実務では推定やシミュレーションの理論的根拠となります。一方で収束の速さや前提条件には注意が必要で、中心極限定理と組み合わせて用いることで、より実践的な評価が可能になります。