BellCurve 統計WEB

未経験からデータ分析が学べる
未経験からデータ分析が学べる
  • Step1. 基礎編
  • 25. さまざまな検定

25-7. 母比率の差の検定


25-1章では母比率の検定方法について学びました。この章では、2つの標本から得た標本比率を使って母比率が等しいかを検定する方法について学びます。

例題:

あるドラマの視聴率を調査したところ、関東地区では5,000世帯中1,000世帯が視聴していたことが分りました。一方、関西地区では3,000世帯中540世帯が視聴していました。この結果から、2地区の視聴率に差があるといえるでしょうか。

関東地区関西地区
調査世帯数50003000
視聴世帯数1000540

  1. 仮説を立てる
  2. 帰無仮説H_{0}は「関東地区と関西地区の視聴率は等しい」とします。したがって、対立仮説H_{1}は「関東地区と関西地区の視聴率は等しくない(差がある)」となります。

  3. 有意水準を設定する
  4. \alpha=0.05とします。

  5. 適切な検定統計量を決める
  6. 母比率の差の検定では、サンプルサイズnが十分に大きい時には、次の式から得られる統計量zは標準正規分布N(0, 1)に従います。1群目の標本比率を\widehat{p}_{1}、サンプルサイズをn_{1}、2群目の標本比率を\widehat{p}_{2}、サンプルサイズをn_2とします。また、この式では2つの標本比率を1つにまとめた標本比率(プールした標本比率)\widehat{p}を使います。

     \displaystyle z=\frac{\widehat{p}_{1}-\widehat{p}_{2}}{\sqrt{\widehat{p}(1-\widehat{p}) \left(\frac{1}{n_1}+\frac{1}{n_2} \right)}}

    プールした標本比率\widehat{p}は次の式から求めます。

     \displaystyle \widehat{p}=\frac{n_1\widehat{p}_1+n_2\widehat{p}_2}{n_1+n_2}
  7. 棄却ルールを決める
  8. この検定で使用する分布は「標準正規分布」になります。また、関東地区と関西地区とで視聴率に差があるかどうかを確認したいので、両側検定を行います。統計数値表からZ_{0.025}の値を読み取ると「1.96」となっています。

  9. 検定統計量を元に結論を出す
  10. 調査結果から標本比率\widehat{p}_{1}\widehat{p}_{2}、プールした標本比率\widehat{p}は次のようになります。

     \displaystyle \widehat{p}_{1} = \frac{1000}{5000} = 0.2
     \displaystyle \widehat{p}_{2} = \frac{540}{3000} = 0.18
     \displaystyle \widehat{p} = \frac{5000 \times 0.2 + 3000 \times 0.18}{5000+3000} = \frac{1000+540}{8000} = 0.1925

    これらの標本比率とサンプルサイズを用いて統計量zを求めます。

     \displaystyle z=\frac{0.2-0.18}{\sqrt{0.1925(1-0.1925) \left(\frac{1}{5000}+\frac{1}{3000} \right)}}=2.197

    次の図は標準正規分布を表したものです。z=2.197は図の矢印の部分に該当します。矢印は棄却域に入っていることから、「有意水準5%において、帰無仮説H_{0}を棄却し、対立仮説H_{1}を採択する」という結果になります。つまり「関東地区と関西地区とで視聴率に差がある」と結論づけられます。

【コラム】母比率の差の検定と正規分布の再生性

正規分布の再生性については14-2章で既に学びました。確率変数Xが二項分布B(n, p)に従うとき、nが大きい場合にはXは正規分布N(p, \frac{p(1-p)}{n})に従うので(21-1章)、これらの和(差)もまた正規分布に従います。

 \displaystyle \widehat{p_1}-\widehat{p_2} \sim N \left( p_1-p_2, \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}  \right)

(\widehat{p_1}-\widehat{p_2})を正規化したZは正規分布に従います。

 \displaystyle z=\frac{(\widehat{p_1}-\widehat{p_2})-(p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}} \sim N(0, 1)

この母比率の差の検定は、帰無仮説H_0p_1=p_2としていることから、p_1=p_2=\widehat{p}としたときのp_1p_2をプールした標本比率\widehat{p}を使って、次のように書き換えられます。

 \displaystyle z=\frac{(\widehat{p_1}-\widehat{p_2})-(p_1-p_2)}{\sqrt{\frac{\widehat{p}(1-\widehat{p})}{n_1}+\frac{\widehat{p}(1-\widehat{p})}{n_2}}}

したがって、

 \displaystyle z=\frac{\widehat{p}_{1}-\widehat{p}_{2}}{\sqrt{\widehat{p}(1-\widehat{p}) \left(\frac{1}{n_1}+\frac{1}{n_2} \right)}}

となります。


25. さまざまな検定

事前に読むと理解が深まる- 学習内容が難しかった方に -


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


統計WEBを運営するBellCurveは、統計解析ソフト「エクセル統計」を開発・販売しています! 統計解析ソフト「エクセル統計」をインストール後のExcel上のタブとメニュー エクセル統計ジャケット画像


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)