交絡因子とは
2017/08/19
カテゴリ:コラム「統計備忘録」
※コラム「統計備忘録」の記事一覧はこちら※
医学研究の本を読むと「交絡因子があれば、多変量解析を使って調整する」という記述をよく目にします。交絡因子とは、要因と結果の両方の変数と関連がある第3の変数のことです。交絡因子がある場合に、ある要因と結果の関係を単変量解析によって評価しようとすると、交絡因子バイアスが発生して正しい評価ができなくなります。
次の例は、ウォナコットの『回帰分析とその応用』に載っていたものです。
このデータから、春の総降雨量 r が農作物の収量 Y に及ぼす影響について単回帰を求めると、次の回帰式が得られました。
Y=76.67-1.67r
回帰係数が -1.67 ですから、降雨量が増えると収量が減少するという結果です。水は植物の生長に欠かせないはずですから意外な気もします。そこで、平均気温 t を説明変数に加えて重回帰の問題として解いてみました。そうすると、次の重回帰式が得られました。
Y=-144.76+5.71r+2.95t
降雨量の偏回帰係数は 5.71 となり、単回帰の場合とは逆に、降雨量が増えると収量も増加します。一方、平均気温については1度上がると収量を 2.95 増加させます。なぜ、このように降雨量の影響が異なったのかというと、平均気温が降雨量と収量に交絡しているからです。降雨量と平均気温の関係を回帰式にしてみると次のようになりました。
t=75-2.5r
単位降雨量あたり平均気温が2.5度低くなるという負の関連が見られます。このため、降雨量が1増えると、直接的には収量を 5.71 増加させますが、平均気温が2.5度下がってしまうため、間接的には収量を 7.38 減少させてしまいます。
-7.38=-2.5×2.95
単回帰のときの、降雨量が収量にあたえる影響、-1.67 は、平均気温という交絡因子によるバイアスを含んだものだったのです。
-1.67=5.71-7.38
交絡因子を説明変数に加えて多変量解析(この例では重回帰分析)を解くこと、これが多変量解析による調整です。観察や調査による研究では、計画段階で交絡因子を予想しておき、交絡因子のデータも集めておかなければいけません。