選択バイアス selection bias

※コラム「統計備忘録」の記事一覧はこちら


選択バイアスは、 実験や調査の対象となった集団が、母集団を正しく代表できていないときに起こる偏りです。次のようなバイアスが選択バイアスに分類されます。

自己選択バイアス self-selection bias

臨床試験などで参加者を募集すると、健康に自身のある人が集まってきたり、疾患に関心の高い人が集まったりと、参加者の意志が入り込むことによって起こるバイアス。志願者バイアス volunteer bias とも。

未回答者バイアス non-respondent bias

調査に回答してくれる人と回答してくれない人の間で違いがあること。未受診者バイアスとも。例としては、胃ガン検診受診者よりも未受診者の方が胃ガンによる死亡率が高いなどがある。

健康労働者効果 healthy worker effect

特定の職業や職場環境によるリスクなどを測ろうとして、事業所に勤務している労働者を対象にして調査すると、病気によってすでに退職した人、休業している人が含まれないため、一般人よりも健康という結果が出てしまうこと。

Berksonバイアス Berkson's bias

病院の患者などを調査対象とした場合、一般の人よりも有病率が高かったり、病院の専門性などにより特性に偏りがあったりすること。入院率バイアス admission rate bias とも。

Neymanバイアス Neyman's bias

症例対照研究の多くは病院への来院者から患者群と対照群を選ぶ為、進行が早く来院前に死亡することがある疾患や、来院しなくとも治癒してしまうような疾患では正しい比較ができないこと。罹患者-有病者バイアス prevalence-incidence bias とも。

脱落バイアス losses to follow up

長期にわたる追跡調査などでは、死亡、転居、同意撤回などにより、必ず脱落が発生する。脱落の理由が調査の目的や方法と関連がある場合、結果が歪む原因となる。


 

診断バイアス、発見兆候バイアスなどこのほかにもあります。選択バイアスの事例は医学統計に多く見られますが、病院を学校と読み替えてみれば、教育調査にもあてはまるものが多いと思います。

バイアスとの付き合い方

※コラム「統計備忘録」の記事一覧はこちら


「 誤差の問題」の記事で、誤差には系統誤差と確率誤差の2種類があると書きましたが、バイアスはこのうちの系統誤差に含まれます。

バイアスとは、データ収集の方法によってデータが真の分布から一定の方向へずれてしまう(系統的なずれがある)ことを指します。人間を対象にした実験や調査では頻繁に起こることなので、医学、社会学、心理学などではバイアス自体が研究テーマになるほどです。名前の付いているバイアスは山ほどあって、ざっと思いつくだけでも、自己選択バイアス、健康労働者効果、診断バイアス、想起バイアス、調査員バイアス、Berksonバイアス、Neymanバイアス、マッチング・バイアス、確証バイアス、代表性バイアス、出版バイアスときりがありません。「錯誤相関」の記事で取り上げた錯誤相関もバイアスの1種になります。

バイアスがコントロールされていないと、信頼性の低い研究と見做されます。バイアスをコントロールする主な方法は次の3つです。

 1.バイアスが入り込まないようにする
 2.バイアスの懸かり方を無作為化する
 3.バイアスを要因に組み込んでデータを分析する(局所管理

医学研究で信頼性がもっとも高いとされるRCT(Randomized Controlled Trialの略称。ランダム化比較試験、無作為化対照試験などと訳される)は 2 の無作為化を目指したものです。RCTでは実験群(新しい治療法を試す群)と対照群(旧来の治療法やプラセボを試す群)への割り付けをランダムに行います。こうすることで、医師が特定の傾向の人に協力を募ったことによるバイアスや、試験協力者の治療効果への期待や知識の違いによるバイアスなど、バイアスの出現率が実験群と対照群で理論上は等確率になります。実験群、対照群ともバイアスの影響が等しいので、両群で差が見られたなら、それは新しい治療法の効果と捉えることができます。

また、RCTを行うときには盲検法も合わせて行います。協力者に自分が実験群なのか対照群なのか分からないようにします。これは協力者の期待からくる見せかけの治療効果(プラセボ効果)を無作為化するためです。実験者の医師にもどちらの群か分からないにするとき、二重盲検法(双盲法とも。英語では double blind test )と言います。これは、協力者が医師の言動からどちらの群なのか察しがつかないようにするのと、医師の治療法への期待、思い込みによるバイアスを排除するためです。

3 の局所管理については、Mantel-Haenszel検定2元配置以上の分散分析重回帰分析多重ロジスティック回帰分析などの多変量解析を用い、バイアスとなりそうな要因を説明変数に追加してデータを分析します。例えば、飲酒と肺癌の関係を調べると関連があるように見えますが、これは飲酒する人に喫煙する人が多いためで、実際には飲酒と肺癌の間に因果関係は見つかっていません。このような時は喫煙の有無で分けてから、飲酒の有無と肺癌発症の有無をクロス集計をしてみると両者に関連が無いのが分かります。検定で確かめたいなら Mantel-Haenszel検定を使います。喫煙のように原因系(飲酒)と結果系(肺癌の発症)の両方と相関があるような因子を交絡因子と言って、交絡因子によって結果が歪んでしまうことを交絡バイアスがあると言います。


 

さて、次回は代表的なバイアスを幾つか取り上げてみたいと思います。

錯誤相関

※コラム「統計備忘録」の記事一覧はこちら


先日、バイアスについて調べ物をしていたところ、Wikipedia上で「錯誤相関」なる用語と遭遇しました。忘れないうちに備忘録にメモしておきます。

錯誤相関(英語ではillusory correlation)とは、相関があると思い込んでしまうこと、錯覚による相関です。例えば、あなたが、初めての旅行先で道に迷って途方に暮れていたところ、通りすがりの地元の人が目的地まで連れて行ってくれたとします。たまたま通りすがりの人が親切だっただけかもしれませんが、あなたは、「この土地の人はなんて親切なんだろう」と思うのではないでしょうか。このケースでは、初めての旅行先で「情報が少なく」、誰かに助けてもらいたいという「期待」があったところへ、わざわざ目的地まで連れて行ってくれるという「稀な」やさしさに出会ったのですから、錯誤相関が生じる条件を十分に満たしています。

芸能人が不祥事を起こしたときに「やっぱりね」なんて思うのも、ジンクスを信じるのも、錯誤相関によることが多いと思います。

データ分析をしていて、僅かな違いに意味を見出すのも、違いがあるのに無視してしまうのも錯誤相関のなせる業かもしれません。

よくある間違い

※コラム「統計備忘録」の記事一覧はこちら


今回は、統計初心者のよくある間違いや勘違いを取り上げます。

1.p値が小さいほど差が大きい

平均値の差を検定する場合、p 値を左右するものには、「平均値の差の大きさ」以外に、「標準偏差」と「サンプルサイズ(n)」があります。同じ平均値の差なら標準偏差が小さい方が p 値も小さくなります。また、サンプルサイズが大きくなるほど p 値は小さくなります。理論的には、僅かでも差があれば nをどんどん大きくしていくことで有意差を検出することができます。従って、p 値が小さいほど差が大きいと言えるのは、標準偏差と n が等しい場合だけです。これらは中心極限定理によるものです。
なお、よく似た間違いに、「p 値が小さいので強い相関がある」というのもあります。

2.両側検定と片側検定の有意な方を採用する

両側検定と片側検定では、帰無仮説は同じですが対立仮説が異なります。どちらの結果を採用するかは研究計画の段階で決めておきます。両側検定と片側検定の違いが分からない人は、とりあえず両側検定の結果を採用しましょう。
なお、最初から片側検定をするつもりでも、p 値だけで有意判定をするのは危険です。対立仮説と逆の分布になっている可能性があります。

3.母数とは分母の事だ

母数と分母はまったく別物です。母数とは母平均や母標準偏差など母集団の分布を特徴付ける値のことです。英語でparameterと言います。

4.相関関係と因果関係は同じことだ

x と y の2つの変数の間で有意な相関が見られたとしても、y が x の影響を受けているかどうかは断定できません。x と y を入れ替えても相関係数は一緒です。x と y の間に因果関係は無くて、ともに第3の変数の影響を受けていたのかもしれません。
因果関係を確実に証明するには実験を組みます。実験が無理な場合には時系列的変化を追うなどして、どちらが先行しているかを調べます。


この他にも、「バラツキが無いデータを分析し、結果が出ないのはソフトの所為だと決め付ける」、「ノンパラメトリック検定は t 検定よりも劣る」、「多重比較は分散分析の結果が有意だったときのみ有効」、「複数回答のクロス集計表に対してカイ二乗検定を行う」など数々あります。もっともひどい誤りに「検定の結果は絶対だ」というのがありますが、今日のところは、このあたりで終わりにしておきます。

統計記号†

※コラム「統計備忘録」の記事一覧はこちら


「統計記号 †」を検索していて、統計WEBにたどり着かれる方がいらっしゃいますが、統計WEBのどこにも記述がなかったので、今回、コラムに書いておきます。

† や †† の符号は検定結果の表中に 用いられていることがまれにあります。 † は短剣符(dagger、ダガー)と呼ばれ、パソコンに「だがー」と入力して変換すると出てきます。† は*(asterisk、アスタリスク)と同じように危険率の値(p値)を識別するために使われますが、アスタリスクと比べると、使い方はまちまちのようです。

アスタリスクは、次の表のように、1個でp<0.05、2個ならp<0.01というのが一般的です。たまに3個アスタリスクが並んでいる例もありますが、この場合はp<0.001として使われることが多いようです。

一方、短剣符 † は、p<0.1を表していることもあれば、片側検定と両側検定の結果を同時に記述する際、片側検定のp値を短剣符 † によって表していることもあります。APA(アメリカ心理学会)では『APA論文作成マニュアル』の中で後者の用法を指導しています。

created by Rinker
¥4,660 (2025/10/30 10:58:03時点 Amazon調べ-詳細)
 

 * p < .05 (両側検定)
 ** p < .01 (両側検定)
  p < .05 (片側検定)
 †† p < .01 (片側検定)

 

短剣符だけでなくアスタリスクの用法にしても絶対的なルールは無いので、先ほどの表のように、危険率注(probability notes)をつけて符号の意味することを明らかにしなければいけません。

 

注)「P = 0.05 だったら」の記事中では大文字の P を使っていますが、今回はAPA論文作成マニュアルにならい小文字でイタリックの p にしています。どちらを使用すべきか、統一のルールはないようです。

P=0.05だったら

※コラム「統計備忘録」の記事一覧はこちら


清水信博氏の『もう悩まない!論文が書ける統計 』の中の1節に、「 P = 0.05 だったらどうする」という1節があり、中々面白い話題なので紹介したいと思います。

created by Rinker
¥3,010 (2025/10/30 13:36:20時点 Amazon調べ-詳細)

ここに出てくる P とは、もちろん、統計ソフトを使って統計的仮説検定を行うと出力される P 値のことです。検定を行うときは、P が設定した基準を満たしたなら有意という判断をくだしますが、もっともよく使われる基準は P<0.05(5%未満)です。したがって、この基準を頑なに守った場合、P がちょうど 0.05 なら有意ではないということになります。

清水氏の本では、このようなときには、次のように対処すればよいと書かれています。

Materials & Methods のところで、「 P ≦ 0.05 を統計的に有意にする」と書いて、有意だったとしておけばよい。0.05 といっても単なる決まりごとで、20回に 1回起こるような出来事かどうかという目安でしかないのだから、“≦”か“<”にあまりこだわる必要はない。実際、「 P ≦ 0.05を統計的に有意にする」と書いてある論文もあるので、とりあえずそう書いて投稿して、何かコメントが返ってきたら、それにしたがっておけば良いだろう。

統計ソフトの多くは P 値の出力が小数点以下 3桁か 4桁まで出力します。従って、0.05 といっても、ちょうど 0.050 と出力されたときの話であって、0.054を四捨五入して 0.05 とするのは禁じ手とも書かれていますから、この点、よく注意してください。

さて、この話を読んでいて、エクセル統計のユーザーサポートを思い出しました。「 P = 0.050なのに判定にアスタリスク(*)が付いているのは何故?」という問い合わせです。エクセル統計では P 値を小数点以下第4桁以降も計算しており、本当は、0.04987 のように僅かに 0.050 を下回っていたのが、出力時に四捨五入され 0.050 となった珍しいケースでした。このようなこともありますので、検定結果を見るときは、アスタリスクだけでなく P 値も必ずチェックしてください。

t分布か正規分布か―平均値の差の検定

※コラム「統計備忘録」の記事一覧はこちら


平均値の差の検定を行うには、t 分布を用いる方法( t 検定)と正規分布を用いる方法( z 検定)とがあります。どう使い分けたらよいのでしょう。結論から先に言うと、迷わず t 検定を使ってください。

平均値の差の検定をするには、検定統計量として「平均値の差/標準誤差」を求めます。この検定統計量が、確率分布における有意水準(α)に設定したパーセント点を越えていると有意差があると言います。 このとき確率分布にt分布を使用すると t 検定ということになります。

t 分布も、正規分布と同じようになだらかな山の形をしていますが、正規分布と違い、自由度によって分布の形状が異なります。自由度が小さいくなるほど(≒データの個数が少なくなるほど)、山の頂上は低くなり裾拡がりになります。

右の表は、両側検定で有意水準が 5%のときの、自由度とパーセント点の対応をまとめたものです。

自由度が 1桁のところでは、自由度によってパーセント点が大きく異なりますが、自由度が 20 を過ぎたあたりからとパーセント点は変化はかなり小さくなり、自由度が 60でパーセント点が 2.000 となったあとは殆ど変わらなくなります。 表に載っていない自由度を試したければ、Excelに次のように入力してみてください。



=TINV(0.025,25)  ← t 分布から自由度が 25 で片側確率が 2.5%の
パーセント点を求める式




自由度が∞(無限大)のところを見るとパーセント点は 1.960 です。これは正規分布のパーセント点とまったく同じ値ということになります。Excelに次のように入力して確認してみてください。




=-NORMSINV(0.025)  ← 標準正規分布から片側確率が 2.5%のパーセント点を求める式




t 分布は自由度が大きくなると、どんどん正規分布に近づいていくのです。つまり、自由度が大きいとき、t分布を使おうが正規分布を使おうが検定結果に殆ど差が無いということです。

昔は、手計算で検定統計量を求め、統計数値表のパーセント点と比較するという手順で検定していました。ほとんどの統計数値表では、自由度が30までは自由度1刻みでパーセント点が載っていますが、30を超えると、40、60、120、∞の4つぐらいしかありません。 その為、自由度が無いところのパーセント点は前後の値から補間計算をして求めていたのです。そうでなければ、正規分布を使った検定を用いていました。表を見れば分かるとおりデータの個数が数十あれば、正規分布の方が若干パーセント点が小さく有意になりやすいものの、両者の結果に殆ど違いはなかったからです。

現在では、ソフトウェアが検定統計量から P 値を求めてくれますから、データが何個あろうが t 検定を使用し、P 値と有意水準を比較すれば良いのです。



=TDIST(1.96,10000,2)  ← 検定統計量が1.96、自由度が10000の両側確率(P値)を求める式

正規分布の発見─統計学史(4)

※コラム「統計備忘録」の記事一覧はこちら


今年はガウス(Johann Carl Friedrich Gauss、1777-1855)が『天体運行論』を出版してからちょうど200年になります。多くの統計学の本では、ガウスが正規分布を発見したと書かれています。ガウスが『天体運行論』の中で、天体観測によるデータの誤差はある基本的な法則に従うという理論を確立したからです。ある基本的な法則というのが正規分布であることから、正規分布のことをガウス分布(Gaussian distribution)ともいいます。正規分布の名前はガウスではなく、それより後に、ゴールトンによって付けられました。

今日、正規分布を発見したのは、ガウスよりも前、フランスの数学者、ド・モアブル(Abraham de Moivre, 1667-1754)の功績とされています。1730年代に、ド・モアブルは、二項分布の n を大きくしていくと分布の形が正規曲線で近似できることを発見しました。これを精密化させたのがラプラス変換でも有名なラプラス(Pierre-Simon Laplace、1749-1827)です。正規分布と中心極限定理の歴史はここから始まります。

中心極限定理がどのような条件下に成立するか厳密な証明に取り組んだのは、19世紀のロシアの数学者、チェビシェフ(Pafnuty Lvovich Chebyshev、1821-1894)や彼の弟子のマルコフ(Andrey Andreyevich Markov、1856-1922)です。彼らは証明に至らず、研究はチェビシェフのもう1人の弟子、リアプノフ(Aleksandr Mikhailovich Lyapunov、1857-1918)に引き継がれました。最終的にこの問題に決着をつけたのはフィンランド人のリンデベルグ(Jarl Waldemar Lindeberg)とフランス人のレヴィ(Paul Levy、1886-1973)です。2人は、ほぼ同時期に条件を発見し数学的に証明しました。ド・モアブルの正規分布の発見から200年後のことです。この条件は、リンデベルグ条件という名前で知られています。

「 m の分布 ―標本平均と中心極限定理」の記事の中で、中心極限定理によって母集団がどんな分布であっても標本平均の分布は正規分布になると書きましたが、実はどんな分布でもというのは正しくなく、リンデベルグ条件を満たさず中心極限定理が成立しない分布があります。コーシー分布と言います。コーシー分布には平均も標準偏差も存在しないのです。コーシー分布に従う母集団から標本抽出をすると、極端に大きな値や小さな値が含まれる可能性が高く、標本平均がある値の付近に集中するということがないのです。どのような分布かというと、自由度 1 の t 分布が標準コーシー分布になります。

参考書籍

created by Rinker
¥7,184 (2025/10/30 12:55:05時点 Amazon調べ-詳細)
created by Rinker
¥2,680 (2025/10/30 12:55:05時点 Amazon調べ-詳細)
created by Rinker
¥1,719 (2025/10/30 13:09:22時点 Amazon調べ-詳細)

mの分布―標本平均と中心極限定理

※コラム「統計備忘録」の記事一覧はこちら


統計学のテキストでは母集団の平均を母平均といってギリシャ文字の μ(ミュー)で表します。一方、母集団から抽出した標本集団の平均を標本平均といってアルファベットの小文字の m や X(エックスバー)で表します。

推測統計学(統計的仮説検定や推定のこと)の立場では母平均は1個しか存在しません。通常、母集団のすべてを調べることはできませんから、標本のデータを使って母平均を推測することになります。標本平均は余程の偶然でもない限り、サンプリングをしなおす度に値が異なります。このように都度異なる標本平均から、たった1つの母平均をどのように推測できるのでしょうか。この問題を解決してくれるのが中心極限定理 central limit theorem です。

皆さんの中には、t 検定をするとき、サンプリングしたデータが正規分布に従っているか心配で仕方がないという人がいるかもしれませんが、実のところそれほど心配する必要はありません。中心極限定理によって母集団がどんな分布であっても「標本平均の分布は正規分布に従う」ことが分かっているからです。「標本平均の分布」とは、同じ母集団から何度も無作為抽出(実験の場合は無作為化)を繰り返して、その度に計算しなおした場合の標本平均のバラツキ具合です。この標本平均の分布は、母平均 μ を中心とし母標準偏差を標本の大きさ n の二乗根で割った値(母標準偏差/√n )を標準偏差とする正規分布になります。標本の大きさ n が大きくなるほど正規分布に近づき、n が30にもなればほぼ正規分布に一致します。なお、母標準偏差/√n のことを標準誤差というのは「標準誤差」の記事で書いたとおりです。

例えば、次のように、母平均 μ が1,927、母標準偏差 σ が 925 で平均よりも中心が左に偏った分布をしている 1万件の母集団があったとします。

この母集団から無作為に 30 件を取り出すということを何度も繰り返し、その度に標本平均 m を求めると、m の分布は、母平均 μ を中心として標準偏差が 169(=925/√30 )の正規分布に似たものになります。ということは、抽出を 100 回繰り返すと、そのうちの95回の標本平均は、1,927±169×1.96 の範囲におさまるだろうということです。標本平均が母平均とまったく同じということはまずないでしょうが、母平均から遠い値よりも近い値になる方が確率的には高いのです。

n を大きくしていくと標本平均の分布は狭まります。次のグラフは n が 30(黒線)と n が 100(赤線)の場合の標本平均の分布を示しています。n を大きくしたほうが誤差が小さくなるのも、中心極限定理で説明できます。

n が小さくなるにしたがって、標本平均の正規分布は崩れていきます。崩れの程度は、母集団の分布が正規分布に近いほど緩やかです。したがって、n が小さく、かつ、母集団が正規分布すると仮定できないときには、対数変換などによって正規分布に近づくように、データを変換してから t 検定や分散分析を行うかデータ変換をしないでノンパラメトリック検定を行う事も考えましょう。

バーに入ってきたビル・ゲイツ

※コラム「統計備忘録」の記事一覧はこちら


平均値が集団の平均的姿を表さない典型例に平均年収があります。これを分かりやすくした話が「バーに入ってきたビル・ゲイツ」です。

「バーに入ってきたビル・ゲイツ」とは、「とあるバーにビル・ゲイツが入ってきたらバーの客の平均年収は急激に上がるけれど、ビル・ゲイツが入ってくる前からいた客が以前よりも金持ちになったわけではない」というものです。このたとえ話は、2008年、ノーベル経済学賞を受賞したポール・クルーグマンの著書、『格差はつくられた―保守派がアメリカを支配し続けるための呆れた戦略』の中でも使われていましたから、ご存知の方もいらっしゃるのではないでしょうか。

created by Rinker
¥1,220 (2025/10/30 14:40:48時点 Amazon調べ-詳細)

さて、総務省による2008年10-12月期の家計調査では、年間の世帯収入の平均値が544万円でした。このときの、収入の多い少ないで世帯を5等分した各階級の平均年収は次の通りです。

年間収入五分位階級 1 2 3 4 5
平均世帯年収(万円) 180 329 460 645 1,103

表を見ると第3階級の平均が 460万円、第4階級は 645万円。全体平均の 544万円はこの中間ですから、第3階級までの 60%ぐらいの世帯は平均年収以下と思われます。上位 20%である第5階級の平均年収は 1,103万円と跳ね上がっています。この階級には年収が億単位の世帯もあるでしょうから、そういう世帯が全体の平均も引き上げているのでしょう。

平均値が集団の平均像であるかどうかは、平均値と中央値を比べます。中央値とは集団を上下半々に分ける値です。上述の家計調査であれば第3階級の平均 460万円が中央値に近いはずです。平均値と中央値がほぼ一致すれば平均値は集団の特性値である可能性が高くなります。平均値が中央値よりも大きければ、上述の年収のように分布が左に偏っている可能性が高くなります。

平均値が中央値と異なる場合、平均値にはどのような意味があるでしょうか。たとえば上述の家計調査による平均年収であれば、これに日本の総世帯数を掛けることで日本の世帯年収の総額が分かります。一方、中央値に総世帯数を掛けても世帯年収の総額は分かりません。したがって、中央値よりも平均値の方が日本全体の姿を現していることになります。平均値と中央値の両方の数字があれば、国内格差の有無を読み取ることもできます。

 

エクセル統計ではローレンツ曲線を作成し、同時にジニ係数を求める機能が搭載されています。ローレンツ曲線は収入の不平等度など、格差の状態を表すために用いられます。