t分布か正規分布か―平均値の差の検定
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※
平均値の差の検定を行うには、t 分布を用いる方法( t 検定)と正規分布を用いる方法( z 検定)とがあります。どう使い分けたらよいのでしょう。結論から先に言うと、迷わず t 検定を使ってください。
平均値の差の検定をするには、検定統計量として「平均値の差/標準誤差」を求めます。この検定統計量が、確率分布における有意水準(α)に設定したパーセント点を越えていると有意差があると言います。 このとき確率分布にt分布を使用すると t 検定ということになります。
t 分布も、正規分布と同じようになだらかな山の形をしていますが、正規分布と違い、自由度によって分布の形状が異なります。自由度が小さいくなるほど(≒データの個数が少なくなるほど)、山の頂上は低くなり裾拡がりになります。
右の表は、両側検定で有意水準が 5%のときの、自由度とパーセント点の対応をまとめたものです。
自由度が 1桁のところでは、自由度によってパーセント点が大きく異なりますが、自由度が 20 を過ぎたあたりからとパーセント点は変化はかなり小さくなり、自由度が 60でパーセント点が 2.000 となったあとは殆ど変わらなくなります。 表に載っていない自由度を試したければ、Excelに次のように入力してみてください。
=TINV(0.025,25) ← t 分布から自由度が 25 で片側確率が 2.5%の
パーセント点を求める式
自由度が∞(無限大)のところを見るとパーセント点は 1.960 です。これは正規分布のパーセント点とまったく同じ値ということになります。Excelに次のように入力して確認してみてください。
=-NORMSINV(0.025) ← 標準正規分布から片側確率が 2.5%のパーセント点を求める式
t 分布は自由度が大きくなると、どんどん正規分布に近づいていくのです。つまり、自由度が大きいとき、t分布を使おうが正規分布を使おうが検定結果に殆ど差が無いということです。
昔は、手計算で検定統計量を求め、統計数値表のパーセント点と比較するという手順で検定していました。ほとんどの統計数値表では、自由度が30までは自由度1刻みでパーセント点が載っていますが、30を超えると、40、60、120、∞の4つぐらいしかありません。 その為、自由度が無いところのパーセント点は前後の値から補間計算をして求めていたのです。そうでなければ、正規分布を使った検定を用いていました。表を見れば分かるとおりデータの個数が数十あれば、正規分布の方が若干パーセント点が小さく有意になりやすいものの、両者の結果に殆ど違いはなかったからです。
現在では、ソフトウェアが検定統計量から P 値を求めてくれますから、データが何個あろうが t 検定を使用し、P 値と有意水準を比較すれば良いのです。
=TDIST(1.96,10000,2) ← 検定統計量が1.96、自由度が10000の両側確率(P値)を求める式