BellCurve 統計WEB

  • Step1. 初級編
  • 25. さまざまな検定

25-5. 独立性の検定

2つ以上の分類基準を持つクロス集計表において、分類基準間に関連があるかどうかを検定することを独立性の検定といいます。このような場合にもカイ二乗分布による検定を使います。

例題:

ランダムに選ばれた男女各100人の血液型について次のようなデータが得られました。この結果から、男女間で血液型の分布に差があるといえるでしょうか。

血液型 A型 O型 B型 AB型
男性 55 22 16 7 100
女性 40 32 24 4 100

  1. 仮説を立てる
  2. 帰無仮説H_{0}は「調査した男女間で血液型の分布は同じである」とします。したがって、対立仮説H_{1}は「調査した男女間で血液型の分布は異なる」となります。

  3. 有意水準を設定する
  4. \alpha=0.05とします。

  5. 適切な検定統計量を決める
  6. 適合と検定ではカイ二乗分布に従うカイ二乗統計量(=カイ二乗値\chi^{2})使います。カイ二乗値は次のように求めます。

    ①理論値を算出する

    独立性の検定においても適合度の検定と同様に「実測値」を「理論値」と比較します。そのためには「理論値」を算出する必要があります。例えば、「男性・A型」の場合、A型95人が男女1:1に分かれているのが理想なので、

     \displaystyle 95 \times \frac{100}{200}=\frac{95 \times 100}{200}=47.5

    という計算式から「理論値」を算出します。

    血液型 A型 O型 B型 AB型
    男性 55 22 16 7 100
    女性 40 32 24 4 100
    95 54 40 11 200

    同様にしてすべての「理論値」を算出します。i列目の度数の合計を「f_{i \cdot}」、j行目の度数合計を「f_{\cdot j}」、すべての度数の合計をnとすると、i列・j行目の「理論値」は以下の式から求められます。

     \displaystyle \frac{f_{i \cdot} \times f_{\cdot j}}{n}

    血液型 A型 O型 B型 AB型
    男性 47.5 27 20 5.5 100
    女性 47.5 27 20 5.5 100
    95 54 40 11 200

    ②「理論値」からの「実測値」のズレを2乗したものを「理論値」で割る

    血液型 A型 O型 B型 AB型
    男性 \displaystyle \frac{(55-47.5)^{2}}{47.5} \displaystyle \frac{(22-27)^{2}}{27} \displaystyle \frac{(16-20)^{2}}{20} \displaystyle \frac{(7-5.5)^{2}}{5.5} 100
    女性 \displaystyle \frac{(40-47.5)^{2}}{47.5} \displaystyle \frac{(32-27)^{2}}{27} \displaystyle \frac{(24-20)^{2}}{20} \displaystyle \frac{(4-5.5)^{2}}{5.5} 100

    ③すべての和をとる

    和は6.639になります。したがって、\chi^{2}=6.639となります。

  7. 棄却ルールを決める
  8. m \times n(縦がm行、横がn列)のクロス集計表の場合、自由度が(m-1) \times (n-1)のカイ二乗分布を用いて検定を行います。この例題の場合(2-1)×(4-1)=3です。したがって自由度「3」の「カイ二乗分布」を使用します。また、独立性の検定は片側検定で行います。統計数値表から\chi_{0.05}^2(3)の値を読み取ると「7.815」となっています。

    \alpha
    v 0.99 0.975 0.95 0.9 0.1 0.05 0.025 0.01
    1 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635
    2 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210
    3 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345
    4 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277
    5 0.554 0.831 1.145 1.610 9.236 11.070 12.833 15.086

  9. 検定統計量を元に結論を出す
  10. 次の図は自由度3のカイ二乗分布を表したものです。\chi^{2}=6.639は図の矢印の部分に該当します。矢印は棄却域に入っていないことから、「有意水準5%において、帰無仮説を棄却しない」という結果になります。つまり「調査した男女間で血液型の分布は異なるとは言えない」と結論づけられます。

    ※4/18にご指摘いただいた点に関して、結論が誤っていたため修正しました。ご指摘どうもありがとうございました。

図1

■おすすめ書籍

そろそろ統計ソフトRでも勉強してみようかなという方にはコレ!自分のPC環境で手を動かしながら統計の基礎も勉強しつつRの勉強もできます。結構な厚みがある本です。





25. さまざまな検定

事前に読むと理解が深まる- 学習内容が難しかった方に -

統計検定バナー 「統計学の時間」では、記事を最後まで読むことで、統計検定2級に合格する力が身につくことを目標としています。