幾つデータが必要か?―相関係数の有意性検定

※コラム「統計備忘録」の記事一覧はこちら


相関係数の統計的有意性の検定は「無相関の検定」と呼ばれています。相関係数がゼロである(=無相関)ことを帰無仮説としていることからこの名前が付いています。

このとき、相関係数rの値が小さいほど、有意な結果を得るためにより多くのサンプルが必要になります。簡単な目安として、以下のような経験則を使う場合があります。

r は相関係数です。|r| は相関係数の絶対値を表します。この式は、あくまで相関の大きさからざっくりと必要なサンプルサイズを見積もるための経験的な近似式であり、厳密な理論に基づいたものではありません。実際に検定を行う際には、有意水準(α)や検出力(1−β)を考慮した上で、正確にサンプルサイズを計算する必要があります。

この式を用いると、母相関係数が 0.4以上と想定し、有意水準を5%、検出力を80%に設定した場合、検定に必要な n を計算すると 24 になります。すなわち、ざっくりと24組のデータが必要であるということが分かります。

幾つデータが必要か?―比率の差の検定

※コラム「統計備忘録」の記事一覧はこちら


「幾つデータが必要か?」の記事で、2群の平均値の差の検定についてサンプルサイズ(n)を幾つにするか計算式を紹介しましたが、今回は比率の差の検定のときに n を幾つ以上にしたらよいかを求めてみましょう。

計算式は次の通りです。この式も、有意水準を5%としたときに、対立仮説が正しい(2群の比率は等しくない)ときは80%の検出力で有意判定を行えるよう n を求めています。P1、P2 は事前に想定する各群の比率です。式中の P は P1 と P2 を足して 2 で割った値です。




例えば、逆上がりの授業で、「飯田・根本式段階別さか上がり練習法」を取り入れてその効果を検証するといった場合にあてはめてみましょう。

飯田・根本式により逆上がりをマスターする子供が 80%以上、従来の練習法ではマスターする子供が 40%以内に留まると想定しているのなら、P1 に 0.8、P2 に 0.4 を、P には 0.6 を式に代入します。計算すると n は 24 です。






したがって、検証実験を行うには、逆上がりをできない子供を 48人集めて無作為に 24人ずつの2つのグループに振り分けます。片方のグループは飯田・根本式で、もう一方のグループは従来の練習法で指導します。練習後に、各グループの逆上がりをマスターした子供の比率を調べて2グループの比率の差を検定すれば良いのです。

幾つデータが必要か?―平均値の差の検定

※コラム「統計備忘録」の記事一覧はこちら


t検定で有意差検定を行う場合、2群間で僅かでも差があるなら、データの個数をどんどん増やしさえすれば、理論的にはいつか有意になります。しかしながら、予算にも時間にも限りがありますし、動物実験でそんなことをしたら倫理的にも許されないですね。それでは幾つデータを採ればよいのでしょうか。

統計Tipsでは区間推定の場合に必要なサンプルサイズを計算することができますが、ここでは、t検定の場合の簡単な必要サンプルサイズ ( n ) の計算方法を紹介します。この方法は『論文が読める!早分かり統計学』という本に紹介されていたものです。

式はたったのこれだけです。

この式は、有意水準を5%としたときに、対立仮説が正しいときは80%の検出力で有意判定を行えるよう n を求めています。式中の s2 の s は標準偏差です。先行研究を調べるか予備実験をすれば標準偏差の値を決められると思います。d2 の d は期待している 2群間の平均値の差の大きさです。

例えば、標準偏差が10、2群間の平均値の差が10以上を期待するなら、式は次のようになり n は 16 です。

この2分の1の差でも検出したいなら、式は次のようになり、n は 4倍の 64 です。

この式は、実験群、対照群、ともに n が等しいことを前提にしています。従って、実験全体では 2n 個のデータを採ることになります。

平均値と中央値の違い

※コラム「統計備忘録」の記事一覧はこちら


最小値が2、最大値が12の33個のデータがあったとします。33個のデータを小さい方から順に1番から33番まで番号を振っておきます。一本の定規の上に、各データを、データが持っている値と定規の目盛りが一致するように積み上げたところをイメージしてください。

この定規(上図の黒い棒)の左右のバランスが取れるところ、この例では7が平均値です。平均値とはてこの原理における支点です。一方、中央値はデータの並びにおいてちょうど真ん中のところ、この例なら17番のデータの置かれた7が中央値になります。このように平均値を中心に左右均等に散らばる場合は平均値も中央値も同じになります。


それでは33番のデータの値が12ではなく45だったとしましょう。33番が右に大きくずれたことで、てこの原理が働いて平均値は8になります。平均値は外れ値の影響を受けやすいことが分かります。中央値は外れ値の影響を受けないので7のままです。

33番のデータの値が45ではなく450だったとしても中央値は同じですね。でも平均値は20を超えてしまいます。こうなると、33個中32個は平均値より下ということになってしまいます。 一方、中央値は、依然、7のままですね。中央値のこの性質のことを「外れ値に対してロバストである(頑健性がある)」と言います。


それでは次の図を見てください。この場合も平均値は7ですが、中央値は5になります。このように、平均値と中央値が異なるとき、分布は平均値より中央値側に偏りがあります。年収や資産など、お金についてのデータをとると平均値より中央値が低くなることが殆どです。

このような分布になると中央値にも、データを半々に分けるという意味しかありません。数値だけでデータの分布を把握しようとするなら、最小値と最大値ぐらいは少なくともみておきましょう。続いて、最小値から中央値までの幅(この例では6)、中央値から最大値までの幅(10)を比較します。幅の小さい方に分布が密集していることが分かります。これに第1四分位(25パーセンタイル)と第3四分位(75パーセンタイル)の数値も分かるとかなり正確に全体の分布を予測できます。この5つの数値を使ったデータ分布の表現を五数要約と言います。五数要約をグラフにしたのが箱ひげ図です。

平均値と統計法

※コラム「統計備忘録」の記事一覧はこちら


マーケティング・リサーチの結果を報告していると、必ずといってよいほどクライアントから平均値が幾つか聞かれます。データの分布を1つの値だけで説明しようとするなら、平均値より中央値の方がはるかにましだと思うのですが、中央値を知りたがる人はまずいません。中央値を知らない人も結構います。中央値とは、そこから集団を二等分できる値です。中央値は中学校あたりで習うと思うのですが、中央値という言葉を授業で習ったとき以外に学校生活の中で聞いた憶えがありません。せっかく覚えても使わなければ忘れて当然かもしれませんね。

さて、マスコミの報道を見ていても、平均値に偏っていると感じます。先日もテレビを見ていたら、貧困率を「平均的な所得の半分に満たない人の割合」と説明していましたが、これは誤解を与える表現です。OECD(経済協力開発機構)の定義では「中央値の半分に満たない」です。中央値も広義の平均 average に含まれますが、この説明では、多くの人が狭義の平均 mean のことと思ってしまうのはないでしょうか。

なぜこのように平均値ばかり使うのかということについては、平均値が簡単に計算できるのに対し、中央値はデータを並べ直すという面倒な処理が必要だからということが大きいと思います。もう1つの理由としては統計法の存在が考えられます。政府が行う調査は統計法という法律に縛られています。平成19年に改正され、今年の4月1日に全面施行されるまでは政府が行った調査のローデータが開示されることはありませんでした。したがって政府発表が平均値のみであった場合、平均値が集団の中央に位置しているかどうか知る余地が無かったのです。

所得や資産などお金が絡むデータでは特にそうですが、社会現象で平均値が集団の中央に位置することは珍しいと思います。大抵は平均値の方が中央値より高くなります。まともな社会統計であれば平均値と中央値が併記されているので、見比べてみるとよいでしょう。ここ数年、統計法の改正やインターネットの普及の流れを受け、行政だけでなく、大学、団体などでも積極的にデータアーカイブを立ち上げています。ローデータの開示は、研究目的に限定されることが多いのですが、集計データについては全面開示しているところが殆どです。統計WEBにもこれらアーカイブへのリンクコーナーを設けてあります。時間があるときに覗いて見てください。

まだまだ外れ値が気になる

※コラム「統計備忘録」の記事一覧はこちら


前回までに単変量での外れ値の見つけ方を幾つか紹介しましたが、多変量における外れ値を確認する方法もあります。一番単純な方法としては、主成分分析を行って主成分得点を求め、主成分得点を散布図にプロットするなどして視覚化し、探索的に判断するといったテクニックがあります。数値化による判断としては、主成分得点や重回帰分析を利用して「てこ比」を求める、標本マハラノビス汎距離を求めカイ二乗分布から検定を行うなどがあります。

外れ値を見つけたときの対処は、外れ値が、測定の誤りやデータの入力ミス、被験者の特殊性などによる異常値でないか確認することから始めます。異常値であると確信が持てるようであれば、データから除いてしまっても許されるでしょう。異常値の確信を持てないとき、幾つかの対処法がありますが決定打はありません。ケースバイケースです。

探索的な研究であれば、中央値や順位相関係数を求める、検定ならマンホイットニーのU検定やクラスカル・ウォリス検定などのノンパラメトリック手法を用いるなどロバストな統計手法を利用するといった選択があります。

仮説検証的、実験的な研究であれば実験計画から見直す必要があるかもしれません。実験の場合、必要なサンプルサイズや検定の手法まで決めてから実験を行うのが正しい手続きですから、外れ値があったからといって安易にデータを除いたり検定手法を変更してしまったりすると、結果を自分に都合よく改竄したととられかねません。

明確にどこからが外れ値ということは決まっていませんから、外れ値の見つけ方も対処も様々です。とてもコラムでは書ききれないので、まだまだ外れ値が気になる方へ外れ値について書かれている本を二冊紹介します。

1冊はルイ・パストゥール医学研究センターの奥田千恵子氏が書かれた『医学研究者のためのケース別統計手法の学び方』です。「第5章 目障りな外れ値 ―棄却検定法と箱ひげ図」が参考になります。

created by Rinker
¥40 (2025/10/30 19:39:44時点 Amazon調べ-詳細)

もう1冊は心理学テキストライブラリーの第3巻、『Q&Aで知るデータ解析 第2版』です。「外れ値の扱い」、「多変量解析と外れ値」、「外れ値とてこ比」の3つのQ&Aが設けられています。どちらの本も入門書の次に買う本としてお薦めします。

外れ値の見つけ方

※コラム「統計備忘録」の記事一覧はこちら


外れ値を見つける方法としてスミルノフ・グラブス検定があると前回書きましたが、スミルノフ・グラブス検定は正規分布にしか適さない方法です。もう少し汎用性がある方法として、IQRを利用した方法があります。

IQRは第三四分位数(=75パーセンタイル)から第一四分位数(=25パーセンタイル)を引いた値です。日本語では四分位範囲と訳されています。箱ひげ図の箱の長さにあたる部分です。

Excelを使ってIQRを求めるならQUARTILE関数を使って簡単に計算できます。

 =QUARTILE(データの範囲,3)-QUARTILE(データの範囲,1)

次に、第三四分位数にIQRの1.5倍を足した値を求めます。この値以上のデータを外れ値とします。

また、第一四分位数からIQRの1.5倍を引いた値を求めます。この値以下のデータも外れ値とします。

データが完全に正規分布をしている場合、IQRは標準偏差(SD)×1.35です。第三四分位数は平均値+SD×0.67ですから、これにIQRの1.5倍を足した平均値+SD×2.70が上側の外れ値の分かれ目となります。




エクセル統計で出力した箱ひげ図上では、外れ値は×印で表示されます。

外れ値と異常値

※コラム「統計備忘録」の記事一覧はこちら


外れ値と異常値、どちらも英語の outlier の訳語として用いられています。外れ値とは、実験や調査で観測された値の中で、真の値の推定値*1からの残差*2が異常に大きい観測値のことです。同じ本の中で、外れ値と異常値を使い分けていることがありますが、この場合、外れ値の中でも外れ値となった理由があるものを異常値としています。例えば、子供の平熱を調べていたら風邪で熱を出している子が紛れ込んでしまったような場合です。

さて、どれくらいだと異常に大きいとみなすのかというと、正規分布するような値であれば、残差が標準偏差の 2倍から3倍以上あるときとすることが多いですね。確率的には、残差が標準偏差の 2倍以上とするなら4.6%程度、3倍以上とするなら 0.3%程度の出現率ということになります。エクセル統計では外れ値検定に含まれる「スミルノフ・グラブス検定」という手法を使って外れ値を検出できます。スミルノフ・グラブス検定では平均値から最も離れた観測値を選び、その残差をσで割った値を検定統計量とします。外れ値が見つかったら、これを除外して検定をやり直すということを続けていくと、外れ値の無いデータセットを作ることができます。ただし、スミルノフ・グラブス検定は正規分布を前提とした方法なので、正規分布からかけ離れた分布のデータに利用すると、観測値の殆どが外れ値になってしまうこともあるので注意してください。

残差の大きさを気にせず、無条件にデータの分布の両端から 5%とか 10%をカットして外れ値の混入を防ぐという方法もあります。この両端をカットして求めた平均値をトリム平均とか○○%調整平均と言います。トリム平均はExcelのTRIMMEAN関数を使って求めることができます。

以上の2つは機械的に外れ値を除くテクニックですが、外れ値を見つける最もポピュラーな方法としては、ヒストグラムによる判断があります。ヒストグラムの利点はデータの分布も同時に確認できることです。分布の中心が平均値よりも左側に偏り右裾の長い分布なら、外れ値を除外せず、すべてのデータを対数変換してみましょう。対数変換後のデータが正規分布になり外れ値も無いようであれば、対数変換したデータを使って推定や検定を行うことで分析の精度が上がります。

どの方法を使うにしても、外れ値を除くときは外れ値が異常値 abnormal value でないかチェックしておきましょう。計測の失敗や風邪による高熱など異常値であることが明らかなら、除外することに問題はありません。外れ値を異常値と判断する根拠が見つからないときは、安易に除外せず、平均値の代わりに中央値、ピアソンの相関係数の代わりに順位相関係数、検定ならノンパラメトリックな方法を利用するということも考えましょう。



*1 多くは平均値を指す
*2 真の値の推定値との差

外れ値と相関係数

※コラム「統計備忘録」の記事一覧はこちら


外れ値の影響を受けやすいものの1つに相関係数があります。このことを確認するために簡単な実験をやってみましょう。

実験を行うにあたっては、Excelの分析ツールを使って乱数を発生させ、20個のデータを持つ 2つの変数、XとYを用意します。

Correl関数を使って 2変数間の相関係数を求めると、-0.02 とかなりゼロに近い値になりました。続いて、Excelのグラフ機能を利用して散布図を描きます。2変数が無相関であることが分かります。ついでに、グラフ・オプションの「近似曲線の追加」を利用して「直線」をあてはめ、視覚効果を高めておきましょう。

それでは、実験を始めます。最初に、散布図にプロットされた点を適当に1個選んでマウスのポインタを合わせクリックをします。そうすると次の図のように幾つかの点が反転した状態になります。

そのままポインタを動かさずにもう1回クリックすると、ポインタが十字の矢印に変わります。そうなったらクリックボタンを押したままグラフの端のほうにポインタを動かしましょう。端まで動かしたらクリックボタンから指を離してください。次の図のように、選択した1点だけが移動し、直線の傾きも点を移動した側へ偏っているはずです。

元のデータを見てみると、動かした点の座標データ(B17とC17のセル)もグラフに合わせて変わっています。この移動させた点が外れ値です。

外れ値の影響で、相関係数は、ほとんどゼロだったものが 0.37 まで上がっています。私はほぼ真上に点を移動させましたが、もし、右斜め上の方向へ点を移動させたなら(X,Yの両方とも外れ値であれば)、相関係数はさらに高くなっているはずです。

相関分析をする場合、相関係数だけを見ていると、外れ値によって相関が高くなっていても気がつきません。相関係数について無相関の検定をしても見破ることはできません。外れ値の影響をうけているかどうかは、このように散布図を作って視覚的に確認するのが一番です。

グラフを作らずに数字だけで判断したいというなら統計ソフトを利用して順位相関係数を求めてみましょう。このデータについて、エクセル統計を利用し、スピアマンの順位相関係数を求めてみると値は -0.04 となりXとYは無相関のままです。

情報バイアス information bias

※コラム「統計備忘録」の記事一覧はこちら


選択バイアスは研究対象の選び方に起因するものでしたが、正しく対象を選ぶことができても、測定の仕方に問題があり正しい情報が得られないことがあります。


想起バイアス recall bias

過去に起こったことを質問すると、人によって、思い出した内容の正確さや完全さが異なることにより起きます。 例えば、難病の子供を抱えた母親は、そうでない母親よりも、子供が幼いときのことを鮮明に憶えています。

思案バイアス rumination bias

回答者が質問の内容に思いを巡らして、大げさに回答したり、都合の良いように回答したりということがあります。よく似たバイアスにホーソン効果 Hawthorne effect があります。ホーソン効果とは実験に参加している人は、実験に参加しているという意識によって普段以上にパフォーマンスが上がるという現象です。

質問者バイアス interviewer bias

聞き取り調査のとき、質問者が先入観を持っていると、回答を誘導してしまったり、先入観にあてはまるように回答を解釈してしまったりすることがままあります。

測定バイアス measurement bias

測定装置に問題があったり、測定する人によって違いがあったりすることによるバイアスです。質問者バイアスも測定バイアスの1つと言えます。

家族情報バイアス family information bias

特定の疾病について調査する場合、罹患者の方が症状について詳しい為、家族の病気にも気付きやすく、罹患者の家族の罹患率が実態よりも高めになってしまう傾向があります。

社会的望ましさによるバイアス social desirability bias

アンケートでよくあることですが、無意識のうちに、あるいは、意識的に、回答者が自分を良く見せ掛けるような回答をしてしまいます。例えば、「拾ったお金は警察に届けますか」、「老人に席を譲りますか」というような質問をすると、実態よりも「はい」と答える人が多くなります。人によって社会的望ましさに対する反応の程度か異なるためバイアスを生じます。社会的容認バイアス、社会願望バイアスとも訳されます。


 

このほかにも、誤分類バイアス Misclassification bias、診断バイアス Diagnostic bias などがあります。



 

様々なバイアスを紹介した論文
Sackett,D,L: Bias in analytic research. Journal of Chronic Disease,32,51-63, 1979