BellCurve 統計WEB

  • Step1. 初級編
  • 20. 母平均の区間推定(母分散未知)

20-1. 標本とt分布

20章では、母分散が分からない場合の母平均の区間推定について説明します。19章では母分散が分かっている場合の母平均の信頼区間の算出方法について学びましたが、母平均が分からないのに母分散だけは分かっているという状況は現実にはほとんどありません。したがって、通常母平均の区間推定を行う場合にはこの章で説明するt分布(あるいはStudentのt分布ともいいます)を用いた方法が使われます。

まず、推定や検定でよく使われる統計量の記号を次の表にまとめます。母平均を表すμと標本平均を表す\overline{x}は既に出てきました。母分散を表す\sigma^{2}と不偏分散を表すs^{2}は今後よく出てくるので覚えておくと便利です。

図1

統計量で用いられる記号 母集団 標本
平均 μ \overline{x}あるいは\overline{X}
分散 \sigma^{2} s^{2}

母分散が分からない場合、母分散\sigma^{2}を使うことはできません。つまり、19章で学習した母平均の95%信頼区間を求める式は使えません。

 \displaystyle \overline{x}-1.96 \times \sqrt{\frac{\sigma^{2}}{n}} \leq \mu  \leq \overline{x}+1.96 \times \sqrt{\frac{\sigma^{2}}{n}}

そのため、母分散\sigma^{2}ではなく代わりに不偏分散s^{2}を使います。s^{2}を使って母分散の区間推定を行う場合には、標準正規分布ではなく「t分布」というものを使います。中心極限定理により、サンプルサイズnが大きければ標本平均は正規分布に近似できますが、サンプルサイズnが十分に大きくない場合には正規分布に近似できないため、代わりにt分布を使うのです。

t分布は標準正規分布とよく似た形の分布で、パラメータである「自由度」によって分布の形が変わるという特徴を持っています。自由度を変化させた時のt分布の形を見てみます。次のグラフは自由度(グラフ中ではdfで表示しています)が1, 2, 5, 10である場合のt分布(赤、緑、青、水色線)と標準正規分布(黒線:normal)を表したものです。自由度が大きくなるにつれて、標準正規分布に近づくことが分かります。

図2

母集団の平均をμ、不偏分散をs^{2}、抽出したサンプルサイズnを使って算出される次に示す統計量tの値は、は自由度(n-1)のt分布に従います。したがって、母分散が分からない場合にはt分布を使って区間推定を行うことができるのです。

  \displaystyle t=\frac{\overline{x}-\mu}{\sqrt{\frac{s^{2}}{n}}}

【コラム】t分布の発見

t分布はゴセット(William Sealy Gosset)によって初めて示されました。ゴセットはギネスビールの社員だったことから、t分布についての論文を発表する際に「Student」というペンネームを用いました。ゴセットがどのようにしてt分布を発見したかについては、「統計学を拓いた異才たち」に詳しく書かれています。この本、とても面白いのでおすすめです。

20. 母平均の区間推定(母分散未知)