20-6. 母平均の差の信頼区間 | 統計学の時間 | 統計WEB

BellCurve 統計WEB

  • Step1. 基礎編
  • 20. 母平均の区間推定(母分散未知)

20-6. 母平均の差の信頼区間

19-2章20-3章で既に学んだ母平均信頼区間と同様に、2つの異なる母集団の平均の差(=母平均の差)の信頼区間も算出できます。ただし、2つのデータが「対応のあるデータ」か「対応のないデータ」かによって算出方法が異なります。

対応があるデータは同じ対象に対する2つのデータのことで、データがペアになっているものを指します。そのため、2つのデータのサンプルサイズは必ず等しくなります。一方、対応がないデータは2つのデータの対象についてペアではない(無関係である)ものを指します。2つのデータのサンプルサイズは等しくない場合もあります。

図1

■対応があるデータの場合

あるクラスからランダムに選んだ5人の生徒の1学期と2学期の数学のテスト結果を次の表にまとめました。このデータから母平均の差の95%信頼区間を求めてみます。ただし、各学期の数学のテストの点数はそれぞれ異なる正規分布に従うものとします。

名前 1学期のテスト(点) 2学期のテスト(点) 1学期と2学期の差(点)
Aさん 90 95 -5
Bさん 85 90 -5
Cさん 50 70 -20
Dさん 75 60 15
Eさん 85 65 20
平均 77 76 1
不偏分散 257.5 242.5 267.5

  1. それぞれのデータ差の平均値と不偏分散を求めます。この例題の場合、差の平均値\overline{x}_{d}=1、不偏分散s_{d}^{2}=267.5となります。
  2. 抽出したサンプルサイズをn、信頼係数を\alpha(=100\alpha%)とすると、次の式から母平均の差\mu_{d}の95%信頼区間を求められます。ただし、「t_{\alpha/2}(n-1)」は「自由度が(n-1)、信頼係数が(1-\alpha)×100%のときのt分布表の値を示します。
  3.  \displaystyle \overline{x}_{d}-t_{\alpha/2}(n-1) \times \sqrt{\frac{s_{d}^{2}}{n}} \leq \mu_{d}  \leq \overline{x}_{d}+t_{\alpha/2}(n-1) \times \sqrt{\frac{s_{d}^{2}}{n}}

    このデータの場合、サンプルサイズはn=5となります。t分布において自由度が5-1=4のときの上側2.5%点は「2.776」です。数学のテスト結果のデータを上の式に当てはめると、

     \displaystyle 1-2.776 \times \sqrt{\frac{267.5}{5}} \leq \mu_{d}  \leq 1+2.776 \times \sqrt{\frac{267.5}{5}}

    となるので、計算すると次のようになります。

     \displaystyle -19.30 \leq \mu_{d}  \leq 21.30

■対応がないデータの場合

1組の生徒30人からランダムに選んだ5人と2組の生徒35人からランダムに選んだ4人の数学のテスト結果を次の表にまとめました。このデータから母平均の差の95%信頼区間を求めてみます。ただし、各クラスの数学のテストの点数はそれぞれ異なる正規分布に従うものとします。

1組の名前 1組の数学のテスト(点) 2組の名前 2組の数学のテスト(点)
Aさん 90 Fさん 95
Bさん 85 Gさん 90
Cさん 50 Hさん 70
Dさん 75 Iさん 60
Eさん 80
平均 76 平均 78.75
不偏分散 242.5 不偏分散 272.9

この例題で使用する記号を次のように定めます。

組の名前 1組の数学のテスト 2組の数学のテスト
母分散 \mu_{1} \mu_{2}
平均 \overline{x}_{1} \overline{x}_{2}
不偏分散 s_{1}^{2} s_{2}^{2}
サンプルサイズ n_{1} n_{2}

  1. それぞれのデータの平均値と不偏分散を求めます。
  2. それぞれのデータから算出される分散をまとめた分散s_{p}^{2}(プールされた分散ともいいます)を、次の式から算出します。
  3.  \displaystyle s_{p}^{2}=\frac{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}

    テスト結果のデータに当てはめると、プールした分散は次のようになります。

     \displaystyle s_{p}^{2}=\frac{(5-1) \times 242.5 +(4-1) \times 272.9}{5+4-2}=255.53
  4. 次の式から母平均の差\mu_{1}-\mu_{2}の95%信頼区間を求めます。ただし、「t_{\alpha/2} (n_{1}+n_{2}-2)」は「自由度が(n_{1}+n_{2}-2)、信頼係数が(1-\alpha)×100%のときのt分布表の値を示します。
  5.  \displaystyle (\overline{x}_{1}-\overline{x}_{2})-t_{\alpha/2}(n_{1}+n_{2}-2) \times \sqrt{s_{p}^{2}\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)} \leq \mu_{1}-\mu_{2}  \leq (\overline{x}_{1}-\overline{x}_{2})+t_{\alpha/2}(n_{1}+n_{2}-2) \times \sqrt{s_{p}^{2}\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)}

    このデータの場合、自由度は5+4-2=7となります。t分布において自由度が7のときの上側2.5%点は「2.365」です。数学のテスト結果のデータを上の式に当てはめると、

     \displaystyle (76-78.75)-2.365 \times \sqrt{255.53 \times \left(\frac{1}{5}+\frac{1}{4}\right)} \leq \mu_{1}-\mu_{2}  \leq (76-78.75)+2.365 \times \sqrt{255.53 \times \left(\frac{1}{5}+\frac{1}{4}\right)}

    となるので、計算すると次のようになります。

     \displaystyle -28.11 \leq \mu_{1}-\mu_{2} \leq 22.61

    【コラム】母平均の差の検定と正規分布の再生性

    正規分布の再生性については14-2章で既に学びました。母集団1と母集団2が母分散の等しい正規分布N(\mu_1, \sigma^2)N(\mu_2, \sigma^2)に従うとき、これらの母集団から抽出した標本の平均(標本平均)\widehat{x}_1\widehat{x}_2はそれぞれ正規分布N(\mu_1, \sigma^2/n_1)N(\mu_2, \sigma^2/n_2)に従うことから、これらの和(差)もまた、正規分布に従います。

     \displaystyle \widehat{x}_1 - \widehat{x}_2 \sim N\left(\mu_1-\mu_2, \frac{\sigma^2}{n_1}+\frac{\sigma^2}{n_2} \right)=N\left(\mu_1-\mu_2, \sigma^2 \left( \frac{1}{n_1}+\frac{1}{n_2} \right) \right)

    ただし、母分散が既知という状況は一般的にはないので、\sigma^2の代わりに標本から計算した不偏分散s^2を使います。2つの標本から2つの不偏分散s_1^2s_2^2が算出されるので、これらを自由度で重み付けして1つにまとめた分散s_p^2を使います。

     \displaystyle t=\frac{\widehat{x}_1 - \widehat{x}_2-(\mu_1-\mu_2)}{\sqrt{s_p^2 \left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}

    この式から算出されるtの値は自由度(n_1+n_2-2)のt分布に従います。

    ■おすすめ書籍

    この本は、「こういうことやりたいが、どうしたらよいか?」という方向から書かれています。統計手法をベースに勉強を進めていきたい方はぜひ手にとってみてください。

    
    
    
    
    
    

20. 母平均の区間推定(母分散未知)

事前に読むと理解が深まる- 学習内容が難しかった方に -