標準誤差
2017/08/14
カテゴリ:コラム「統計備忘録」
タグ:統計備忘録
※コラム「統計備忘録」の記事一覧はこちら※
統計用語の1つに標準誤差(standard error、SE)という概念があります。本によっては解説があったりなかったりしますが、覚えておくと便利ですから、簡単に触れておきます。
標準誤差は1種類ではなく幾つかの標準誤差がありますが、まず、特に何のことわりも無く標準誤差と書かれている場合、標本平均についての標準誤差(standard error of the mean、SEM*)を指しています。標準偏差(standard deviation、SD)とサンプルサイズ(n)から計算できます。
SEM=SD/√n
母集団から標本を抽出して求めた平均を標本平均といいます。サンプルサイズを一定にして何度も無作為抽出を繰り返し、得られた標本平均をヒストグラムに描くと、中心極限定理(the central limit theorem)によって、ヒストグラムは母集団の平均(母平均、真の平均)を中心とした釣鐘状の形になります。つまり、標本平均の分布は、ほぼ正規分布になります。標準誤差(SEM)とは、この標本平均の分布の標準偏差であり、標本平均のばらつき具合の指標になります。
標本平均が正規分布するということは、無作為抽出を繰り返したて得られた標本平均の95%は、「母平均±1.96×SEM」の区間に収まるということです。母平均の区間推定は、この原理を応用しています。実際に区間推定するときは、母平均も母標準偏差も分かっていないので、標本平均と標準偏差(不偏分散の二乗根による母標準偏差の推定量としての標準偏差)を使って計算します。
標本平均±1.96×標準偏差/√n
ExcelのCONFIDENCE関数もこの式により標本平均からの区間の幅を計算しています。
CONFIDENCE(α, 標準偏差, n) 95%信頼区間ならαは1-0.95の0.05
標準偏差はSTDEV関数で、サンプルサイズはCOUNT関数で求められますから、例えば、Excelシートの「A1:A100」にデータがあるなら、具体的には次のように入力すればよいでしょう。
=CONFIDENCE(0.05,STDEV(A1:A100),COUNT(A1:A100))
ただし、標本平均がきれいな正規分布になるのはnが十分に大きなときですから、一般の統計テキストや統計ソフトでは、1.96ではなくt分布から得られた値を使用します。ExcelならTINV関数を組み合わせればよいでしょう。
=TINV(0.05, COUNT(A1:A100)-1)*STDEV(A1:A100)/SQRT(COUNT(A1:A100))
さらに、この原理を逆用して、ある誤差の範囲に収まるようにサンプルサイズを計算することもできます。この場合、誤差というのは区間推定における平均からの区間の幅と同じと考えてください。誤差を少なくしようとするなら標準誤差を小さくする必要があります。
標準誤差はnの二乗根に反比例することになりますから、サンプルサイズを4倍にすれば標準誤差は半分になります。統計Tipsの「必要なサンプルサイズの計算」で誤差を半分にすると、サンプルサイズが4倍になるのはこのためです。
* SEMは構造方程式モデリング(Structural Equation Modeling、共分散構造分析ともいう)の略称としても使われている。