独立性の検定―最もポピュラーなカイ二乗検定
2017/08/13
カテゴリ:コラム「統計備忘録」
タグ:統計備忘録
※コラム「統計備忘録」の記事一覧はこちら※
独立性の検定とは、いわゆるカイ二乗検定のことです。アンケートをする人にはお馴染みの、あのカイ二乗検定です。適合度の検定、母分散の検定など、カイ二乗分布を利用した統計的仮説検定のことをカイ二乗検定と呼ぶのですが、ただ単に「カイ二乗検定」とあれば、それは「独立性の検定」を指していると考えて間違いないでしょう。
さて、独立性の検定の「独立」とは一体どういうことなのでしょうか。新曜社の統計用語辞典では次のように書かれています。
「2つの事象AとBについて、その同時確率P(AB)がAの確率とBの確率との積となるならば、すなわち
P(AB)=P(A)・P(B)
となるならば、AとBは独立であるという」
例えば、大学生を調査して、その中で、女性が60%、美容院で髪をカットする人が80%だったとします。
女性 | 男性 |
---|---|
60% P(A) | 40% |
美容院 | 80% P(B) |
---|---|
理容院 | 20% |
もし「女性である(A)」と「美容院で髪をカットする(B)」が完全に独立した事象であれば、「女性で、かつ、美容院で髪をカットする人」である確率P(AB)は、次の計算により48%となります。この確率は、独立を仮定した場合に期待される確率、すなわち期待確率です。
P(AB)=0.6×0.8=0.48
「女性、かつ、理容院」、「男性、かつ、美容院」、「男性、かつ、理容院」も同様に期待確率を求めると、次の表になります。
髪をカットする所 | 女性 | 男性 | 計 |
---|---|---|---|
美容院 | 48% P(AB) | 32% | 80% |
理容院 | 12% | 8% | 20% |
計 | 60% | 40% | 100% |
次の表は、調査によって実際に観測された確率をまとめたものです。
髪をカットする所 | 女性 | 男性 | 計 |
---|---|---|---|
美容院 | 54% | 26% |
80% |
理容院 | 6% | 14% |
20% |
計 | 60% | 40% | 100% |
実際に観測された確率と期待確率との乖離が大きいほど、独立していない(関連がある)ということになります。この乖離の程度を評価するのが独立性の検定です。それでは、独立性の検定の手順についてみていきましょう。
検定の手順
最初に、独立性の検定の仮説は次のように設定します。
・帰無仮説H0:2変数(性別、髪をカットする所)は独立である(関連がない)
・対立仮説H1:2変数は独立でない(関連がある)
実際に検定を行うには、確率に対象者の人数を掛けた、(1)実測度数と(2)期待度数の2つのクロス集計表を用います。仮に、この調査の対象者数が200人とすると2つの表は次のとおりです。
髪をカットする所 | 女性 | 男性 |
---|---|---|
美容院 | 108 | 52 |
理容院 | 12 | 28 |
髪をカットする所 | 女性 | 男性 |
---|---|---|
美容院 | 96 | 64 |
理容院 | 24 | 16 |
(1)(2)の集計表が用意できたら、次の計算を行います。
髪をカットする所 | 女性 | 男性 |
---|---|---|
美容院 | 12 | -12 |
理容院 | -12 | 12 |
髪をカットする所 | 女性 | 男性 |
---|---|---|
美容院 | 144 | 144 |
理容院 | 144 | 144 |
髪をカットする所 | 女性 | 男性 |
---|---|---|
美容院 | 1.50 | 2.25 |
理容院 | 6.00 | 9.00 |
(6) (5)の各セルの和(c2)を求める
c2=1.50+6.00+2.25+9.00=18.75
(7) エクセルのCHIDIST関数を使って、クロス集計表の(行数-1)×(列数-1)の自由度のカイ二乗分布から、(6)のカイ二乗値(c2)のp値を求める
p=CHIDIST(18.75,1)=0.000014902
p値が0.01未満なので、有意水準1%で帰無仮説が棄却され、性別と髪をカットする所は関連があるということになります。
(3)から(7)についてはExcelのCHITEST関数を用いることで省略できます。次のようにワークシートに入力してください。
=CHITEST(実測度数範囲、期待度数範囲)
この関数の結果はカイ二乗検定のp値です。前回書いたとおり、エクセル統計なら実測度数のクロス集計表だけで計算できます。
独立性の検定で注意すること
独立性の検定を行う際に注意しなければいけないことがあります。それは次の2つのケースです。
A.期待度数が1未満のセルがある
B.期待度数が5未満のセルが、全体のセルの20%以上ある
前述の例と同じ構成比で、調査対象者が50人であったとすると、各セルの構成比が変わらなくとも、期待度数は次の表のようになります。
髪をカットする所 | 女性 | 男性 |
---|---|---|
美容院 | 24 | 16 |
理容院 | 6 | 4 |
「男性、かつ、理容院でカットする」の期待度数は4になり、Bのケースに該当します。このようなとき、2×2のクロス集計表であれば、イェーツの補正によってカイ二乗値を修正するか、フィッシャーの直接確率(正確確率)によりカイ二乗分布を使わずにp値を直接求める方法があります。
2×2より大きなクロス集計表であればカテゴリーの統合を行います。サンプルサイズが小さいときや、出現頻度が数%のカテゴリーが掛け合わさったとき、A,Bどちらの状況も容易に発生します。
出現頻度が0%のカテゴリーは統合するまでもなく集計表から除いてください。0%のカテゴリーがあると、期待度数も0ということになり検定不能に陥ります。