Step1. 基礎編
20. 母平均の区間推定（母分散未知）

20-6. 母平均の差の信頼区間

19-2章と20-3章で既に学んだ母平均の信頼区間と同様に、2つの異なる母集団の平均の差（＝母平均の差）の信頼区間も算出できます。ただし、2つのデータが「対応のあるデータ」か「対応のないデータ」かによって算出方法が異なります。

対応があるデータは同じ対象に対する2つのデータのことで、データがペアになっているものを指します。そのため、2つのデータのサンプルサイズは必ず等しくなります。一方、対応がないデータは2つのデータの対象についてペアではない（無関係である）ものを指します。2つのデータのサンプルサイズは等しくない場合もあります。

■対応があるデータの場合

あるクラスからランダムに選んだ5人の生徒の1学期と2学期の数学のテスト結果を次の表にまとめました。このデータから母平均の差の95%信頼区間を求めてみます。ただし、各学期の数学のテストの点数はそれぞれ異なる正規分布に従うものとします。

名前	1学期のテスト（点）	2学期のテスト（点）	1学期と2学期の差（点）
Aさん	90	95	-5
Bさん	85	90	-5
Cさん	50	70	-20
Dさん	75	60	15
Eさん	85	65	20
平均	77	76	1
不偏分散	257.5	242.5	267.5

それぞれのデータ差の平均値と不偏分散を求めます。この例題の場合、差の平均値 $\overline{x}_{d}$ =1、不偏分散 $s_{d}^{2}$ =267.5となります。

抽出したサンプルサイズをn、信頼係数を $\alpha$ （＝100 $\alpha$ ％）とすると、次の式から母平均の差 $\mu_{d}$ の95%信頼区間を求められます。ただし、「 $t_{\alpha/2}(n-1)$ 」は「自由度が $(n-1)$ 、信頼係数が $(1-\alpha)×100$ %のときのt分布表の値を示します。

$\displaystyle \overline{x}_{d}-t_{\alpha/2}(n-1) \times \sqrt{\frac{s_{d}^{2}}{n}} \leq \mu_{d} \leq \overline{x}_{d}+t_{\alpha/2}(n-1) \times \sqrt{\frac{s_{d}^{2}}{n}}$

このデータの場合、サンプルサイズはn=5となります。t分布において自由度が5-1=4のときの上側2.5%点は「2.776」です。数学のテスト結果のデータを上の式に当てはめると、

$\displaystyle 1-2.776 \times \sqrt{\frac{267.5}{5}} \leq \mu_{d} \leq 1+2.776 \times \sqrt{\frac{267.5}{5}}$

となるので、計算すると次のようになります。

$\displaystyle -19.30 \leq \mu_{d} \leq 21.30$

■対応がないデータの場合

1組の生徒30人からランダムに選んだ5人と2組の生徒35人からランダムに選んだ4人の数学のテスト結果を次の表にまとめました。このデータから母平均の差の95%信頼区間を求めてみます。ただし、各クラスの数学のテストの点数はそれぞれ異なる正規分布に従うものとします。

1組の名前	１組の数学のテスト（点）	2組の名前	２組の数学のテスト（点）
Aさん	90	Fさん	95
Bさん	85	Gさん	90
Cさん	50	Hさん	70
Dさん	75	Iさん	60
Eさん	80	―	―
平均	76	平均	78.75
不偏分散	242.5	不偏分散	272.9

この例題で使用する記号を次のように定めます。

組の名前	1組の数学のテスト	2組の数学のテスト
母平均	$\mu_{1}$	$\mu_{2}$
平均	$\overline{x}_{1}$	$\overline{x}_{2}$
不偏分散	$s_{1}^{2}$	$s_{2}^{2}$
サンプルサイズ	$n_{1}$	$n_{2}$

それぞれのデータの平均値と不偏分散を求めます。

それぞれのデータから算出される分散をまとめた分散 $s_{p}^{2}$ （プールされた分散ともいいます）を、次の式から算出します。

$\displaystyle s_{p}^{2}=\frac{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}$

テスト結果のデータに当てはめると、プールした分散は次のようになります。

$\displaystyle s_{p}^{2}=\frac{(5-1) \times 242.5 +(4-1) \times 272.9}{5+4-2}=255.53$

次の式から母平均の差 $\mu_{1}-\mu_{2}$ の95%信頼区間を求めます。ただし、「 $t_{\alpha/2}$ ( $n_{1}+n_{2}-2$ )」は「自由度が( $n_{1}+n_{2}-2$ )、信頼係数が $(1-\alpha)×100$ %のときのt分布表の値を示します。

$\displaystyle (\overline{x}_{1}-\overline{x}_{2})-t_{\alpha/2}(n_{1}+n_{2}-2) \times \sqrt{s_{p}^{2}\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)} \leq \mu_{1}-\mu_{2} \leq (\overline{x}_{1}-\overline{x}_{2})+t_{\alpha/2}(n_{1}+n_{2}-2) \times \sqrt{s_{p}^{2}\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)}$

このデータの場合、自由度は5+4-2=7となります。t分布において自由度が7のときの上側2.5%点は「2.365」です。数学のテスト結果のデータを上の式に当てはめると、

$\displaystyle (76-78.75)-2.365 \times \sqrt{255.53 \times \left(\frac{1}{5}+\frac{1}{4}\right)} \leq \mu_{1}-\mu_{2} \leq (76-78.75)+2.365 \times \sqrt{255.53 \times \left(\frac{1}{5}+\frac{1}{4}\right)}$

となるので、計算すると次のようになります。

$\displaystyle -28.11 \leq \mu_{1}-\mu_{2} \leq 22.61$

【コラム】母平均の差の検定と正規分布の再生性

正規分布の再生性については14-2章で既に学びました。母集団1と母集団2が母分散の等しい正規分布 $N(\mu_1, \sigma^2)$ 、 $N(\mu_2, \sigma^2)$ に従うとき、これらの母集団から抽出した標本の平均（標本平均） $\widehat{x}_1$ 、 $\widehat{x}_2$ はそれぞれ正規分布 $N(\mu_1, \sigma^2/n_1)$ 、 $N(\mu_2, \sigma^2/n_2)$ に従うことから、これらの和（差）もまた、正規分布に従います。

$\displaystyle \widehat{x}_1 - \widehat{x}_2 \sim N\left(\mu_1-\mu_2, \frac{\sigma^2}{n_1}+\frac{\sigma^2}{n_2} \right)=N\left(\mu_1-\mu_2, \sigma^2 \left( \frac{1}{n_1}+\frac{1}{n_2} \right) \right)$