バイアスとの付き合い方
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※
「 誤差の問題」の記事で、誤差には系統誤差と確率誤差の2種類があると書きましたが、バイアスはこのうちの系統誤差に含まれます。
バイアスとは、データ収集の方法によってデータが真の分布から一定の方向へずれてしまう(系統的なずれがある)ことを指します。人間を対象にした実験や調査では頻繁に起こることなので、医学、社会学、心理学などではバイアス自体が研究テーマになるほどです。名前の付いているバイアスは山ほどあって、ざっと思いつくだけでも、自己選択バイアス、健康労働者効果、診断バイアス、想起バイアス、調査員バイアス、Berksonバイアス、Neymanバイアス、マッチング・バイアス、確証バイアス、代表性バイアス、出版バイアスときりがありません。「錯誤相関」の記事で取り上げた錯誤相関もバイアスの1種になります。
バイアスがコントロールされていないと、信頼性の低い研究と見做されます。バイアスをコントロールする主な方法は次の3つです。
1.バイアスが入り込まないようにする
2.バイアスの懸かり方を無作為化する
3.バイアスを要因に組み込んでデータを分析する(局所管理)
医学研究で信頼性がもっとも高いとされるRCT(Randomized Controlled Trialの略称。ランダム化比較試験、無作為化対照試験などと訳される)は 2 の無作為化を目指したものです。RCTでは実験群(新しい治療法を試す群)と対照群(旧来の治療法やプラセボを試す群)への割り付けをランダムに行います。こうすることで、医師が特定の傾向の人に協力を募ったことによるバイアスや、試験協力者の治療効果への期待や知識の違いによるバイアスなど、バイアスの出現率が実験群と対照群で理論上は等確率になります。実験群、対照群ともバイアスの影響が等しいので、両群で差が見られたなら、それは新しい治療法の効果と捉えることができます。
また、RCTを行うときには盲検法も合わせて行います。協力者に自分が実験群なのか対照群なのか分からないようにします。これは協力者の期待からくる見せかけの治療効果(プラセボ効果)を無作為化するためです。実験者の医師にもどちらの群か分からないにするとき、二重盲検法(双盲法とも。英語では double blind test )と言います。これは、協力者が医師の言動からどちらの群なのか察しがつかないようにするのと、医師の治療法への期待、思い込みによるバイアスを排除するためです。
3 の局所管理については、Mantel-Haenszel検定、2元配置以上の分散分析、重回帰分析や多重ロジスティック回帰分析などの多変量解析を用い、バイアスとなりそうな要因を説明変数に追加してデータを分析します。例えば、飲酒と肺癌の関係を調べると関連があるように見えますが、これは飲酒する人に喫煙する人が多いためで、実際には飲酒と肺癌の間に因果関係は見つかっていません。このような時は喫煙の有無で分けてから、飲酒の有無と肺癌発症の有無をクロス集計をしてみると両者に関連が無いのが分かります。検定で確かめたいなら Mantel-Haenszel検定を使います。喫煙のように原因系(飲酒)と結果系(肺癌の発症)の両方と相関があるような因子を交絡因子と言って、交絡因子によって結果が歪んでしまうことを交絡バイアスがあると言います。
さて、次回は代表的なバイアスを幾つか取り上げてみたいと思います。