図解でわかるシンプソンのパラドックス（ユール-シンプソン効果）：定義・事例・回避法

シンプソンのパラドックス（ユール-シンプソン効果）の定義・実例・回避法を図解でわかりやすく解説。統計の落とし穴を回避する実践ガイド。

著者: Leandro Alegsa

06-12-2025 19:51

シンプソンのパラドックスとは、統計学のパラドックスである。1951年に初めて記述したイギリスの統計学者エドワード・H・シンプソンにちなんで命名された。統計学者のカール・ピアソンは1899年に非常によく似た効果を記述している - ウドニー・ユールの記述は1903年である。ユール-シンプソン効果と呼ばれることもある。集団の統計的な得点を見るとき、集団を一つずつ見るか、まとめて大きな集団にするかによって、得点が変わることがある。このケースは社会科学や医学の統計学でよく起こります。因果関係を説明するために頻度データを使用した場合、人々を混乱させることがある。このパラドックスの別称として、反転パラドックス、アマルガムパラドックスなどがある。

定義（簡潔）

シンプソンのパラドックスは、同じデータを異なる粒度（全体集計と層別集計）で見ると、二つの処理・属性間の比較結果（たとえば「Aの方が良い」／「Bの方が良い」）が反対になってしまう現象です。これは「隠れた変数（交絡因子）」が集団ごとの比率や分布に偏りをもたらすために起きます。

具体例（数値での説明）

以下は典型的な数値例です（AとBは治療法や処置、あるいは選択肢を表す）。各「グループ（層）」ごとにAの成功率はBより高いのに、全体を合計するとBの成功率が高くなる例です。

グループ1（小規模、Aに有利）: A = 9/10 = 90%、 B = 72/90 = 80%
グループ2（大規模、Aに有利）: A = 27/90 = 30%、 B = 2/10 = 20%

しかし全体では

A 全体 = (9 + 27) / (10 + 90) = 36 / 100 = 36%
B 全体 = (72 + 2) / (90 + 10) = 74 / 100 = 74%

結果として、各グループ内ではAの方が良いにもかかわらず、合計ではBの方が良いという「反転」が起きています。これは各層におけるサンプルサイズ配分の違い（重みの違い）が原因です。

なぜ起きるのか（原因）

交絡（confounding）: 第三の変数（例: 病気の重症度、応募者の志望学部など）がA/Bの割り当てや成功率に影響を与え、その分布がグループ間で異なると誤った結論に導かれやすくなります。
重み付け（加重平均）の違い: 各層のサイズや割合が両群で異なると、層別の割合（p1, p2）の加重平均が全体で逆転することがあります。
測度の非可折り（non-collapsibility）: 特にオッズ比のような指標は層別に計算した値と合成後の値が一致しない（非可折）性質を持ち、これが混乱を招くことがあります。

実際の事例（代表的なもの）

大学入学率の男女差（Berkeley入試の例）: 学部ごとの合格率を見ると男女差がなかった、あるいは女性の方が高いのに、全学部を合計すると男性の方が高く見えることがあった（志望学部の選択傾向の違いが原因）。
医学的比較: 異なる病院や重症度ごとに治療の有効性を比較すると、層別ではある治療が優れているが、全体合算で逆転するケース。

検出方法と回避法

層別解析（stratification）: まず関係がありそうな変数（年齢、性別、重症度、部署など）でデータを層別化して、層ごとの結果を確認します。
標準化（standardization）: 人口構成を一定に揃えるなどして、比較可能な条件下で率を比較します。
回帰解析での調整: 共変量（交絡因子）をモデルに入れて調整した効果推定（多変量回帰、ロジスティック回帰など）を行います。ただし、どの変数を調整すべきかは因果関係の理解に依ります。
Mantel–Haenszel法などの統計的手法: 共通のオッズ比やリスク差を推定する手法があり、層別データの統合に利用できます。
因果推論（DAG）に基づく判断: 変数間の因果関係（因果図、DAG）を明示して、調整すべき交絡因子と調整してはならない変数（例: コライダー）を区別します。誤った変数を調整するとバイアスが生じることがあります。
ランダム化実験: 可能であればランダム割付により交絡を除去する（因果推定のゴールドスタンダード）。
両方の結果を報告する: 合計と層別の両方を提示し、どのような交絡因子があるかを明示することが透明性を高めます。

注意点（実務上のポイント）

単に「調整すればよい」と機械的に変数を入れると、コライダー（交絡ではないが調整するとバイアスを生む変数）を誤って制御してしまうリスクがあります。因果モデルを考えることが重要です。
指標の選び方（リスク差、相対リスク、オッズ比）によって挙動が異なるため、どの指標が適切か検討してください。
シンプソンのパラドックスは「データの読み取り方が結果を変える」良い教訓になります。常に背景知識やデータ生成過程、分布の偏りを検討してください。

まとめ

シンプソンのパラドックス（ユール-シンプソン効果）は、層別化や交絡の存在により、全体集計と部分集計で結論が食い違う現象です。日常的に発生しうるため、データ解析では層別解析・因果的考察・適切な調整手法を組み合わせて解釈することが重要です。解析結果をそのまま因果結論に結びつけず、どの変数がデータに影響しているかを慎重に検討してください。

例腎臓結石治療

これは、腎臓結石に対する2つの治療法の成功率を比較した医学研究の実例である。

この表は、小さな腎臓結石と大きな腎臓結石を含む治療の成功率と治療回数を示しており、治療Aはすべての開腹手術、治療Bは経皮的腎臓結石摘出術を含んでいます。

	トリートメントA		トリートメントB
	成功	ふりょう	成功	ふりょう
小石	グループ1		グループ2
患者数	81	6	234	36
	93%	7%	87%	13%
大きな石	グループ3		グループ4
患者数	192	71	55	25
	73%	27%	69%	31%
両方	グループ1＋3		グループ2+4
患者数	273	77	289	61
	78%	22%	83%	17%

治療法Aは小さな結石に使用した場合、また大きな結石に使用した場合にも有効であるが、両方のサイズを同時に考慮すると治療法Bの方が有効であるという逆説的な結論になるのである。この例では、腎臓結石の大きさが結果に影響することは知られていませんでした。これを統計学では隠れた変数(lurking variable)といいます。

どちらの治療が優れているかは、2つの比率（成功数／合計）の不等式によって決定される。シンプソンのパラドックスを引き起こす比率の不等号の逆転は、2つの効果が同時に起こるために起こります。

潜んでいる変数を無視したときに組み合わされるグループの大きさは、非常に異なっているのです。医師は重症例（大きな結石）にはよりよい治療（A）を、軽症例（小さな結石）にはより劣った治療（B）を施す傾向がある。したがって、合計は第3グループと第2グループに支配され、はるかに小さい第1グループと第4グループには支配されない。
潜伏変数が比率に大きな影響を与える、つまり、成功率は治療法の選択よりも症例の重症度に強く影響されるのである。したがって、治療法Aを用いた結石の大きい患者群（第3群）は、たとえ劣る治療法B（第2群）を用いたとしても、結石の小さい患者群よりも成績が悪くなる。

百科事典を検索する