幾つデータが必要か?―測定の信頼性による補正
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※
昨年末から3回に亘って必要なサンプルサイズの計算式を紹介してきましたが、この式で求められた n だけデータを集めれば良いということではなく、多少上積みをしておきます。
通常、どんな測定方法を用いても、測定対象の真の値から幾らかのずれがあります(体重測定の結果や、テストの点数など思い浮かべてみてください)。そのため、標本を測定して得たデータから求めた分散は、真の値の分散に測定誤差の分散が加わったものになります。平均値の差の検定では、差を標準誤差で割り t値を求めて有意判定を行っています。分散が膨らむということは、標準誤差が大きくなるということですから、結果として t 値を下げ、有意差が検出力されにくくなります。
測定値の分散に占める真の値の分散の比率を、信頼性の級内相関係数 intraclass correlation coefficient of reliability と言います。この値で、必要なサンプルサイズの計算式で得られた n を割り、新たに n' を求めます。n' をサンプルサイズをとして実験計画を組めば、測定の誤差による信頼性の低下を補うことことができます。
測定値の分散、真の値の分散、測定誤差の分散、3つの分散のうち2つが決まれば、測定の信頼性を評価することができます。3つ目の測定誤差の分散については、簡単な実験で推定してみましょう。まず、同じ対象を何度か測定し平均値を求めます。測定の誤差が正規分布に従うなら、平均値は真の値に近いものになります。したがって、測定値と平均値の差は測定の誤差と考えることができます。次に、対象を変えて同じように誤差を求めます。これを繰り返して誤差データを蓄積すれば測定誤差の分散が求まります。