- Step1. 基礎編
- 20. 母平均の区間推定(母分散未知)
20-6. 母平均の差の信頼区間
19-2章と20-3章で既に学んだ母平均の信頼区間と同様に、2つの異なる母集団の平均の差(=母平均の差)の信頼区間も算出できます。ただし、2つのデータが「対応のあるデータ」か「対応のないデータ」かによって算出方法が異なります。
対応があるデータは同じ対象に対する2つのデータのことで、データがペアになっているものを指します。そのため、2つのデータのサンプルサイズは必ず等しくなります。一方、対応がないデータは2つのデータの対象についてペアではない(無関係である)ものを指します。2つのデータのサンプルサイズは等しくない場合もあります。
![図1](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2016/10/795316b92fc766b0181f6fef074f03fa-6.png)
■対応があるデータの場合
あるクラスからランダムに選んだ5人の生徒の1学期と2学期の数学のテスト結果を次の表にまとめました。このデータから母平均の差の95%信頼区間を求めてみます。ただし、各学期の数学のテストの点数はそれぞれ異なる正規分布に従うものとします。
名前 | 1学期のテスト(点) | 2学期のテスト(点) | 1学期と2学期の差(点) |
---|---|---|---|
Aさん | 90 | 95 | -5 |
Bさん | 85 | 90 | -5 |
Cさん | 50 | 70 | -20 |
Dさん | 75 | 60 | 15 |
Eさん | 85 | 65 | 20 |
平均 | 77 | 76 | 1 |
不偏分散 | 257.5 | 242.5 | 267.5 |
- それぞれのデータ差の平均値と不偏分散を求めます。この例題の場合、差の平均値
=1、不偏分散
=267.5となります。
- 抽出したサンプルサイズをn、信頼係数を
(=100
%)とすると、次の式から母平均の差
の95%信頼区間を求められます。ただし、「
」は「自由度が
、信頼係数が
%のときのt分布表の値を示します。
![Rendered by QuickLaTeX.com \displaystyle \overline{x}_{d}-t_{\alpha/2}(n-1) \times \sqrt{\frac{s_{d}^{2}}{n}} \leq \mu_{d} \leq \overline{x}_{d}+t_{\alpha/2}(n-1) \times \sqrt{\frac{s_{d}^{2}}{n}}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-2b61cc362e46b8794dfb8fc25f8862a4_l3.png)
このデータの場合、サンプルサイズはn=5となります。t分布において自由度が5-1=4のときの上側2.5%点は「2.776」です。数学のテスト結果のデータを上の式に当てはめると、
![Rendered by QuickLaTeX.com \displaystyle 1-2.776 \times \sqrt{\frac{267.5}{5}} \leq \mu_{d} \leq 1+2.776 \times \sqrt{\frac{267.5}{5}}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-3831cdf915c6f159630022a899b35be6_l3.png)
となるので、計算すると次のようになります。
![Rendered by QuickLaTeX.com \displaystyle -19.30 \leq \mu_{d} \leq 21.30](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-22ddc2c79958a21c47de74df99bcefe7_l3.png)
■対応がないデータの場合
1組の生徒30人からランダムに選んだ5人と2組の生徒35人からランダムに選んだ4人の数学のテスト結果を次の表にまとめました。このデータから母平均の差の95%信頼区間を求めてみます。ただし、各クラスの数学のテストの点数はそれぞれ異なる正規分布に従うものとします。
1組の名前 | 1組の数学のテスト(点) | 2組の名前 | 2組の数学のテスト(点) |
---|---|---|---|
Aさん | 90 | Fさん | 95 |
Bさん | 85 | Gさん | 90 |
Cさん | 50 | Hさん | 70 |
Dさん | 75 | Iさん | 60 |
Eさん | 80 | ― | ― |
平均 | 76 | 平均 | 78.75 |
不偏分散 | 242.5 | 不偏分散 | 272.9 |
この例題で使用する記号を次のように定めます。
組の名前 | 1組の数学のテスト | 2組の数学のテスト |
---|---|---|
母平均 | ![]() |
![]() |
平均 | ![]() |
![]() |
不偏分散 | ![]() |
![]() |
サンプルサイズ | ![]() |
![]() |
- それぞれのデータの平均値と不偏分散を求めます。
- それぞれのデータから算出される分散をまとめた分散
(プールされた分散ともいいます)を、次の式から算出します。
- 次の式から母平均の差
の95%信頼区間を求めます。ただし、「
(
)」は「自由度が(
)、信頼係数が
%のときのt分布表の値を示します。
![Rendered by QuickLaTeX.com \displaystyle s_{p}^{2}=\frac{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-fd6c2526d551126fcca087b1b3f3f54b_l3.png)
テスト結果のデータに当てはめると、プールした分散は次のようになります。
![Rendered by QuickLaTeX.com \displaystyle s_{p}^{2}=\frac{(5-1) \times 242.5 +(4-1) \times 272.9}{5+4-2}=255.53](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-27438f557e249eb7b134d176b0cefd70_l3.png)
![Rendered by QuickLaTeX.com \displaystyle (\overline{x}_{1}-\overline{x}_{2})-t_{\alpha/2}(n_{1}+n_{2}-2) \times \sqrt{s_{p}^{2}\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)} \leq \mu_{1}-\mu_{2} \leq (\overline{x}_{1}-\overline{x}_{2})+t_{\alpha/2}(n_{1}+n_{2}-2) \times \sqrt{s_{p}^{2}\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-8a99da7097438b60f09e50feb47f5c69_l3.png)
このデータの場合、自由度は5+4-2=7となります。t分布において自由度が7のときの上側2.5%点は「2.365」です。数学のテスト結果のデータを上の式に当てはめると、
![Rendered by QuickLaTeX.com \displaystyle (76-78.75)-2.365 \times \sqrt{255.53 \times \left(\frac{1}{5}+\frac{1}{4}\right)} \leq \mu_{1}-\mu_{2} \leq (76-78.75)+2.365 \times \sqrt{255.53 \times \left(\frac{1}{5}+\frac{1}{4}\right)}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-8e5e55607845700d695ba5f0b3ad9d44_l3.png)
となるので、計算すると次のようになります。
![Rendered by QuickLaTeX.com \displaystyle -28.11 \leq \mu_{1}-\mu_{2} \leq 22.61](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-8780d196428cc845bd9b68035cbc4413_l3.png)
【コラム】母平均の差の検定と正規分布の再生性
正規分布の再生性については14-2章で既に学びました。母集団1と母集団2が母分散の等しい正規分布、
に従うとき、これらの母集団から抽出した標本の平均(標本平均)
、
はそれぞれ正規分布
、
に従うことから、これらの和(差)もまた、正規分布に従います。
![Rendered by QuickLaTeX.com \displaystyle \widehat{x}_1 - \widehat{x}_2 \sim N\left(\mu_1-\mu_2, \frac{\sigma^2}{n_1}+\frac{\sigma^2}{n_2} \right)=N\left(\mu_1-\mu_2, \sigma^2 \left( \frac{1}{n_1}+\frac{1}{n_2} \right) \right)](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-94825b259880be831c2870149ac2a7fc_l3.png)
ただし、母分散が既知という状況は一般的にはないので、の代わりに標本から計算した不偏分散
を使います。2つの標本から2つの不偏分散
、
が算出されるので、これらを自由度で重み付けして1つにまとめた分散
を使います。
![Rendered by QuickLaTeX.com \displaystyle t=\frac{\widehat{x}_1 - \widehat{x}_2-(\mu_1-\mu_2)}{\sqrt{s_p^2 \left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-ea7c2d887a2181a1f719941980197038_l3.png)
この式から算出されるtの値は自由度のt分布に従います。
■おすすめ書籍
この本は、「こういうことやりたいが、どうしたらよいか?」という方向から書かれています。統計手法をベースに勉強を進めていきたい方はぜひ手にとってみてください。
20. 母平均の区間推定(母分散未知)
事前に読むと理解が深まる- 学習内容が難しかった方に -
- 19. 母平均の区間推定(母分散既知)
19-2. 母平均の信頼区間の求め方(母分散既知)
- 20. 母平均の区間推定(母分散未知)
20-3. 母平均の信頼区間の求め方(母分散未知)
- ブログ
ゴセット、フィッシャー、ネイマン