平均への回帰、相関係数―統計学史(2)
2017/08/13
カテゴリ:コラム「統計備忘録」
タグ:統計備忘録
※コラム「統計備忘録」の記事一覧はこちら※
19世紀はダーウィンの進化論とメンデルの遺伝の法則が立て続けに世に出た時代です。ダーウィンの従兄弟、ゴールトン(Francis Galton、1822-1911)は、「指紋」を使った鑑定法を考案したり、「優生学」という言葉をはじめて用いたりと何かと話題の豊富な人物ですが、統計学においても大きな功績を残しています。
ゴールトンは親から子を予測する方法を探すために、ロンドンに生物測定研究所を設立し、研究に協力してくれる家族を募って、身長や体重、骨格などを測定しました。そこで、長身の親から生まれた子供達の身長は、平均すると親たちよりも低くなる、背の低い親から生まれた子供達の身長は高くなる、全体の平均に近寄っていくという現象を発見します。ゴールトンはこの現象を「平均への回帰」と名づけました。
ところが、カプランの「確率の科学史」を読んでいたら、平均への回帰は生物測定研究所を設立するより前に、エンドウマメの実験で発見したと書いてありました。実験では490粒のエンドウマメ(スイートピー)を重さによって7つのグループに分け、7人の友人に送って育ててもらいます。友人から採れた豆を送り返してもらって重さを測定したところ、平均への回帰現象を見つけたとのことです。
今日でも、平均への回帰は、医療であったり、経済であったりと、様々な場面で使われています。この場合の平均への回帰は、1回目に極端に偏った値が観測されると、2回目には1回目より平均に近い値が観測されることが多いという意味です。例えば医療であれば、「異常な高血圧を示す患者さんに降圧剤を投与して血圧が下がったが、それは、薬の効果ではなく、平均への回帰によるものかもしれない」というように用います。
さて、話を戻しますが、ゴールトンは平均への回帰現象の数値化を試みています。その結果生まれたのが「相関係数」です。ゴールトンが相関(co-relation)という言葉をはじめて用い、相関係数を"r"で表しました。しかし、ゴールトンは数学が得意ではなかったので、相関係数を数式として完成させたのは、弟子のカール・ピアソン(Karl Pearson、1857-1936)です。現在では、特に理が無い限り、「相関係数」は「ピアソンの積率相関係数」を指します。
余談ですが、Microsoft Excel には相関係数を求める関数が2つあります。
CORREL
PEARSON
Excel のヘルプには、前者を「相関係数」、後者を「ピアソンの積率相関係数」と説明しており、異なる式(結果は同じ値になります)を掲げています。
Microsoft社のサポート技術情報のホームページを読むと、Excel 2003では2つの関数は同じ値になるが、それより前のバージョンではPEARSON関数を使うと丸め誤差の問題が発生するのでCORREL関数を使うようにと説明がありました。ということだそうです、皆さんご注意ください。