BellCurve 統計WEB

  • Step2. 中級編
  • 5. 統計的検定

5-2. フィッシャーの正確確率検定

■独立性の検定において注意が必要な場合

独立性の検定を行う際には次の2つのケースに注意が必要です。

  1. 期待度数が1未満のセルがある
  2. 期待度数が5未満のセルが、全体のセルの20%以上ある

このような場合には、独立性の検定結果が正確ではない場合があります。例えば次のような2行×2列のクロス集計表について考えます。

国語が好き国語が嫌い
数学が好き2810
数学が嫌い102030
122840

このクロス集計表から国語の好き嫌いと数学の好き嫌いの間に関連があるといえるかどうかを独立性の検定によって検定する場合、各セルの期待値は次のようになります。

国語が好き国語が嫌い
数学が好き3710
数学が嫌い92130
122840

ここで、「国語が好き・数学が好き」のセルの期待値が「3」になっていることから、ケース2に当てはまります。このような場合には「フィッシャーの正確確率検定」を使って検定を行います。


■フィッシャーの正確確率検定

フィッシャーの正確確率検定は、独立性の検定と同様にクロス集計表の行要素と列要素の2つの属性が独立であるかを検定する方法です。独立性の検定のようにカイ二乗分布による近似的なP値を用いて検定を行うのではなく、起こりうるすべての組み合わせその中で観測された以上の差がつく組み合わせの確率をP値とし、検定を行います。

まず、国語の好き嫌いと数学の好き嫌いのクロス集計表を使って、起こりうるすべての組み合わせを考えます。このとき、「行の合計と列の合計を一定」とするのがポイントです。例えば、「国語が好き・数学が好きが0人」のときには次のようなクロス集計表になります。

国語が好き国語が嫌い
数学が好き01010
数学が嫌い121830
122840

起こりうるすべての組み合わせは次のようになります。

国語好き/数学好き国語好き/数学嫌い国語嫌い/数学好き国語嫌い/数学嫌い
0121018
111919
210820
39721
48622
57523
66424
75325
84226
93127
102028

次に、各組み合わせが起こる確率を求めます。「国語が好き・数学が好きが0人」のときの確率は次のように計算できます。

 \displaystyle \frac{_{10}C_{0} \times _{30}C_{12}}{_{40}C_{12}} = 0.0155

「国語が好き・数学が好きが1人」のときの確率は次のように計算できます。

 \displaystyle \frac{_{10}C_{1} \times _{30}C_{11}}{_{40}C_{12}} = 0.0978

これらの結果をまとめると次のようになります。

国語好き/数学好き国語好き/数学嫌い国語嫌い/数学好き国語嫌い/数学嫌い確率
01210180.0155
1119190.0978
2108200.242
397210.307
486220.220
575230.0918
664240.0223
753250.00306
842262.21e-4
931277.27e-6
1020287.79e-8

最後に、観測された以上の差がつく組み合わせの確率を求めます。この確率は「国語が好き・数学が好きが2人」となる確率よりも低いものをすべて足し合わせたものです。この表を見ると「国語が好き・数学が好きが3人」となる確率以外がすべて該当します。したがって、求める確率はP=1-0.307=0.693となり「有意水準5%において、帰無仮説を棄却しない」という結果になります。つまり「国語の好き嫌いと数学の好き嫌いの間に関連があるとはいえない」と結論づけられます。


■フィッシャーの正確確率検定と独立性の検定のどちらを使えばよいか

検定を行うクロス集計表が上で挙げた2つのケースに当てはまる場合には、フィッシャーの正確確率検定を使ったほうが確率をより正確に計算できます。2つのケースに当てはまらない場合には、どちらの検定法を使っても問題ありません。ただし、サンプルサイズが非常に多い場合にはフィッシャーの正確確率検定は計算量が多くなるために確率の計算ができなかったり計算に時間がかかりすぎてしまう場合があります。そのような場合には独立性の検定を使うほうがよいです。


【まとめ】フィッシャーの正確確率検定におけるP値を求める方法

2行×2列のクロス集計表の各セルの値を以下のように a, b, c, d, n を用いて表したとき、この組み合わせが得られる確率Pは超幾何分布を用いて下式から求めることができます。

X_1X_2X_{sum}
Y_1aba+b
Y_2cdc+d
Y_{sum}a+cb+dn

 \displaystyle P = \frac{(a + b)!(c + d)!(a + c)!(b + d)!}{n!a!b!c!d!}

5. 統計的検定


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)