Step1. 基礎編
21. 母比率の区間推定

21-6. 母比率の差の信頼区間

21-1章および21-2章では母比率の信頼区間の求め方について学びました。この章では、2つの標本から得た標本比率を使って母比率の差の信頼区間を算出する方法について学びます。

例題：

ある新製品の野菜ジュースについてアンケート調査を行ったところ、女性では200人中80人が、男性では300人中60人が買ってみたいと答えました。この結果から、この野菜ジュースを買ってみたいと答えた割合の差の95％信頼区間はいくらでしょうか。

	女性	男性
調査人数	200	300
買ってみたいと答えた人数	80	60
買ってみたいと答えた割合	0.4	0.2

正規分布の再生性については14-2章で既に学びました。確率変数 $X$ が二項分布 $B(n, p)$ に従うとき、 $n$ が十分に大きい場合には $\widehat{p}$ は近似的に正規分布 $N(p, \frac{p(1-p)}{n}})$ に従うので（21-1章）、これらの和もまた正規分布に従います。ただし、1群目の標本比率を $p_1$ 、サンプルサイズを $n_1$ 、2群目の標本比率を $p_2$ 、サンプルサイズを $n_2$ とします。

$\displaystyle \widehat{p_1}-\widehat{p_2} \sim N \left( p_1-p_2, \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2} \right)$

この式を変形すると、

$\displaystyle \frac{(\widehat{p_1}-\widehat{p_2}) - (p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}} \sim N (0, 1)$

となり、 $n$ が十分に大きい場合には $Z = \displaystyle \frac{(\widehat{p_1}-\widehat{p_2}) - (p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}}$ は標準正規分布 $N(0, 1)$ に従います。

この統計量 $Z$ が標準正規分布 $N(0, 1)$ に従うことを利用すると、信頼係数を $(1-\alpha)(=100(1-\alpha)\%)$ としたときの母比率の差の $(100(1-\alpha)\%)$ 信頼区間は次のようになります。ただし、 $\displaystyle z_{\frac{\alpha}{2}}$ は標準正規分布における上側確率が $\displaystyle \frac{\alpha}{2}$ となる値（z値）を表します。

$\displaystyle -z_{\frac{\alpha}{2}} \leq \frac{(\widehat{p_1}-\widehat{p_2}) - (p_1-p_2)}{\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}} \leq z_{\frac{\alpha}{2}}$

この式を展開することで、

$\displaystyle (\widehat{p_1}-\widehat{p_2})-z_{\frac{\alpha}{2}}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}} \leq p_1-p_2 \leq (\widehat{p_1}-\widehat{p_2}) + z_{\frac{\alpha}{2}}\sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}$

となります。ここで、 $\hat{p}$ は $p$ の一致推定量であり、 $n$ が大きい時にはほぼ $p$ に一致すると考えられることから、 $\displaystyle \sqrt{\frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)}{n_2}}$ の $p$ を $\hat{p}$ で置き換えると、次のようになります。

$\displaystyle (\widehat{p_1}-\widehat{p_2})-z_{\frac{\alpha}{2}} \times \sqrt{\frac{\widehat{p_1}(1-\widehat{p_1})}{n_1}+\frac{\widehat{p_2}(1-\widehat{p_2})}{n_2}} \leq p_1-p_2 \leq (\widehat{p_1}-\widehat{p_2})+z_{\frac{\alpha}{2}} \times \sqrt{\frac{\widehat{p_1}(1-\widehat{p_1})}{n_1}+\frac{\widehat{p_2}(1-\widehat{p_2})}{n_2}}$

問題より、女性では $p_1=0.4$ 、 $n_1=200$ 、男性では $p_2=0.2$ 、 $n_2=300$ です。したがって、これらを代入すると求める95%信頼区間は、

$\displaystyle (0.4-0.2)-z_{0.025} \times \sqrt{\frac{0.4(1-0.4)}{200}+\frac{0.2(1-0.2)}{300}} \leq p_1-p_2 \leq (0.4-0.2)+z_{0.025} \times \sqrt{\frac{0.4(1-0.4)}{200}+\frac{0.2(1-0.2)}{300}}$