BellCurve 統計WEB

無料登録してPythonを学ぶ
卒業後の追加講座も永年見放題
  • Step1. 基礎編
  • 25. さまざまな検定

25-4. 適合度の検定


2つのカテゴリーに属するデータをそれぞれのカテゴリーで同時に分類し、その度数を集計したものをクロス集計表といいます。クロス集計表については5-3章で既に学びました。調査によって得られたクロス集計表がある場合、実測度数がある特定の分布に適合(一致)するかどうかを検定することを適合度の検定といいます。適合度の検定では、カイ二乗分布を用いて検定を行います。

例題:

日本人の血液型の分布はA型が40%、O型が30%、B型が20%、AB型が10%であると言われています。ランダムに選ばれた100人の血液型について次のようなデータが得られた時、このデータは日本人の血液型の分布と同じといえるでしょうか。

血液型 A型 O型 B型 AB型
度数 55 22 16 7 100

日本人の血液型分布と完全に一致していた場合、「理論値」のようになると考えられます。そこで、適合度検定ではこの「理論値」からの「実測値」のズレを算出し、検定を行います。

  1. 仮説を立てる
  2. 帰無仮説H_{0}は「調査した血液型分布は日本人の血液型分布と一致する」とします。したがって、対立仮説H_{1}は「調査した血液型分布は日本人の血液型分布と一致しない」となります。

    血液型 A型 O型 B型 AB型
    実測値 55 22 16 7 100
    理論値 40 30 20 10 100

  3. 有意水準を設定する
  4. \alpha=0.05とします。

  5. 適切な検定統計量を決める
  6. 適合度検定ではカイ二乗分布に従うカイ二乗統計量(=カイ二乗値\chi^{2})使います。カイ二乗値は次のように求めます。

    ①「理論値」からの「実測値」のズレを2乗したものを、「理論値」の値で割る

    血液型 A型 O型 B型 AB型
    実測値 55 22 16 7 100
    理論値 40 30 20 10 100
    ズレ \displaystyle \frac{(55-40)^{2}}{40} \displaystyle \frac{(22-30)^{2}}{30} \displaystyle \frac{(16-20)^{2}}{20} \displaystyle \frac{(7-10)^{2}}{10} -

    ②ズレの和をとる

    血液型 A型 O型 B型 AB型
    実測値 55 22 16 7 100
    理論値 40 30 20 10 100
    ズレ \displaystyle \chi^{2} = \frac{(55-40)^{2}}{40} + \frac{(22-30)^{2}}{30} +  \frac{(16-20)^{2}}{20} + \frac{(7-10)^{2}}{10} = 9.458

    この結果より、カイ二乗値は\chi^{2}=9.458となります。

  7. 棄却ルールを決める
  8. この検定で使用する分布は自由度「4-1=3」の「カイ二乗分布」です。また、適合度検定は上側P値(右側P値)を参照します。統計数値表から\chi_{0.05}^2(3)の値を読み取ると「7.815」となっています。

    \alpha
    v 0.99 0.975 0.95 0.9 0.1 0.05 0.025 0.01
    1 0.000 0.001 0.004 0.016 2.706 3.841 5.024 6.635
    2 0.020 0.051 0.103 0.211 4.605 5.991 7.378 9.210
    3 0.115 0.216 0.352 0.584 6.251 7.815 9.348 11.345
    4 0.297 0.484 0.711 1.064 7.779 9.488 11.143 13.277
    5 0.554 0.831 1.145 1.610 9.236 11.070 12.833 15.086

    図1

  9. 検定統計量を元に結論を出す
  10. 次の図は自由度3のカイ二乗分布を表したものです。\chi^{2}=9.458は図の矢印の部分に該当します。矢印は棄却域に入っていることから、「有意水準5%において、帰無仮説を棄却し、対立仮説を採択する」という結果になります。つまり「調査した血液型分布は日本人の血液型分布と一致しない」と結論づけられます。

図2

■おすすめ書籍

カテゴリカルデータの分析には様々な手法があります。もっと色々勉強したい方はこちらの本が分かりやすいです。


25. さまざまな検定

事前に読むと理解が深まる- 学習内容が難しかった方に -


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


統計WEBを運営するBellCurveは、統計解析ソフト「エクセル統計」を開発・販売しています! 統計解析ソフト「エクセル統計」をインストール後のExcel上のタブとメニュー エクセル統計ジャケット画像


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)