BellCurve 統計WEB

  • Step1. 初級編
  • 20. 母平均の区間推定(母分散未知)

20-6. 母平均の差の信頼区間

母平均の信頼区間と同様、2つの異なる母集団の平均の差(=母平均の差)の信頼区間も算出することができます。母平均の差を分析する場合のデータには「対応のあるデータ」と「対応のないデータ」の2種類があります。対応があるデータは同じ対象に対する2つのデータのことで、データがペアになっているものを指します。そのため、2つのデータのサンプルサイズは必ず等しくなります。一方、対応がないデータは2つのデータの対象についてペアではない(無関係である)ものを指します。2つのデータのサンプルサイズは等しくない場合もあります。

図1

■対応があるデータの場合

5人の生徒の1学期と2学期の数学のテスト結果を次の表にまとめました。このデータから母平均の差の95%信頼区間を求めてみます。

名前 1学期のテスト(点) 2学期のテスト(点) 1学期と2学期の差(点)
Aさん 90 95 -5
Bさん 85 90 -5
Cさん 50 70 -20
Dさん 75 60 15
Eさん 85 65 20
平均 77 76 1
不偏分散 257.5 242.5 267.5

  1. 対応のあるデータの母平均の差の信頼区間を求める場合、まずそれぞれのデータ差の平均値と不偏分散を求めます。この例題の場合、差の平均値\overline{x}_{d}=1、不偏分散s_{d}^{2}=267.5となります。
  2. 抽出したサンプルサイズをn、信頼係数をα(=100α%)とすると、次の式から母平均の差\mu_{d}の95%信頼区間を求められます。ただし、「t_{\alpha/2}(n-1)」は「自由度が(n-1)、信頼係数が(1-α)×100%のときのt分布表の値を示します。
  3.  \displaystyle \overline{x}_{d}-t_{\alpha/2}(n-1) \times \sqrt{\frac{s_{d}^{2}}{n}} \leq \mu_{d}  \leq \overline{x}_{d}+t_{\alpha/2}(n-1) \times \sqrt{\frac{s_{d}^{2}}{n}}

    対応のあるこのデータの場合、サンプルサイズはn=5となります。t分布において自由度が5-1=4のときの上側2.5%点は「2.776」です。数学のテスト結果のデータを上の式に当てはめると、

     \displaystyle 1-2.776 \times \sqrt{\frac{267.5}{5}} \leq \mu_{d}  \leq 1+2.776 \times \sqrt{\frac{267.5}{5}}

    となるので、計算すると次のようになります。

     \displaystyle -19.30 \leq \mu_{d}  \leq 21.30

■対応がないデータの場合

1組の生徒5人と2組の生徒4人の数学のテスト結果を次の表にまとめました。このデータから母平均の差の95%信頼区間を求めてみます。

1組の名前 1組の数学のテスト(点) 2組の名前 2組の数学のテスト(点)
Aさん 90 Fさん 95
Bさん 85 Gさん 90
Cさん 50 Hさん 70
Dさん 75 Iさん 60
Eさん 80
平均 76 平均 78.75
不偏分散 242.5 不偏分散 272.9

この例題で使用する記号を次のように定めます。

組の名前 1組の数学のテスト 2組の数学のテスト
母分散 \mu_{1} \mu_{2}
平均 x_{1} x_{2}
不偏分散 s_{1}^{2} s_{2}^{2}
サンプルサイズ n_{1} n_{2}

  1. 対応のあるデータの差の信頼区間を求める場合、まずそれぞれのデータの平均値と不偏分散を求めます。
  2. それぞれのデータから算出される分散をまとめた分散s_{p}^{2}(プールされた分散ともいいます)を、次の式から算出します。
  3.  \displaystyle s_{p}^{2}=\frac{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}

    したがって、プールした分散は次のようになります。

     \displaystyle s_{p}^{2}=\frac{(5-1) \times 242.5 +(4-1) \times 272.9}{5+4-2}=255.53
  4. 次の式から母平均の差\mu_{1}-\mu_{2}の95%信頼区間を求めます。ただし、「t_{\alpha/2} (n_{1}+n_{2}-2)」は「自由度が(n_{1}+n_{2}-2)、信頼係数が(1-α)×100%のときのt分布表の値を示します。
  5.  \displaystyle (\overline{x}_{1}-\overline{x}_{2})-t_{\alpha/2}(n_{1}+n_{2}-2) \times \sqrt{s_{p}^{2}\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)} \leq \mu_{1}-\mu_{2}  \leq (\overline{x}_{1}-\overline{x}_{2})+t_{\alpha/2}(n_{1}+n_{2}-2) \times \sqrt{s_{p}^{2}\left(\frac{1}{n_{1}}+\frac{1}{n_{2}}\right)}

    t分布において自由度が5+4-2=7のときの上側2.5%点は「2.365」です。数学のテスト結果のデータを上の式に当てはめると、

     \displaystyle (76-78.75)-2.365 \times \sqrt{255.53 \times \left(\frac{1}{5}+\frac{1}{4}\right)} \leq \mu_{1}-\mu_{2}  \leq (76-78.75)+2.365 \times \sqrt{255.53 \times \left(\frac{1}{5}+\frac{1}{4}\right)}

    となるので、計算すると次のようになります。

     \displaystyle -28.11 \leq \mu_{1}-\mu_{2} \leq 22.61

20. 母平均の区間推定(母分散未知)