シンプソンのパラドックス―三次元のクロス集計
2017/08/13
カテゴリ:コラム「統計備忘録」
タグ:統計備忘録
※コラム「統計備忘録」の記事一覧はこちら※
「誕生日のパラドックス」、「モンティ・ホール問題」など、統計学や確率に関した幾つかのパラドックスがあります。今週は、その中でも、皆さんが直面する可能性の高い、「シンプソンのパラドックス」について書きます。
シンプソンのパラドックスは、E.H.シンプソン(1951)*によって指摘されたことから、この名がつけられています。
まず、次の集計表を見てください。
この集計表は、男女別に、ある治療処置の有無により、その後、何人が生存していて、何人が死亡したかをまとめたものです。全体で52人分のデータになります。
枠の中の上段の数は人数、下段の数は縦列の合計人数に対するパーセンテージです。男性で、処置を受けて、生存している人数は「8人」、生存率は「61.5%」ということを表しています。
この集計表からは、次の2つの傾向を読み取ることができます。
・男女いずれも、「処置あり」の方が、「処置なし」よりも生存率が高い
・男性は処置の有無に関わらず生存率の方が高く、女性は死亡率の方が高い
それでは、もう1つの集計表を見てください。
これは、同じ52人のデータを集計したものですが、処置の有無に関わらず生存率は50%となり、処置の効果は消えてしまっています。
このように、母集団全体から得られた結論と、母集団を分割して得られた結論が異なることを、「シンプソンのパラドックス」といいます。
* Simpson, E. H., "The Interpretation of Interaction in Contingency Tables", Journal of the Royal Statistical Society, Series B(Methodological), 13, pp. 238-41.