誤差の問題―系統誤差、確率誤差
2017/08/13
カテゴリ:コラム「統計備忘録」
タグ:統計備忘録
※コラム「統計備忘録」の記事一覧はこちら※
高校では数学の中で統計学を教えているし、統計学を数学の1ジャンルと考えている人は多いと思う。確かに、統計学と数学は切っても切り離せない仲ではある。確率や線形代数等の理論なしには統計学は成り立たない。
ただし、一般的に私たちが数学に対して抱いているイメージと、統計学を隔てているものがある。それは、誤差の存在だ。
統計学では、ある対象を測定して得られた観測値(x)は真の値(θ)との差を誤差(error)という。ここでいう真の値とは平均値や出現確率など、その対象を含む母集団を代表する値で、期待値という言い方もする。観測値(x)は次のような式で表される。
観測値(x)=真の値(θ)+誤差(e)
例えば、ある17歳の男性の身長(x)は、次のような式になる。
身長(x)=17歳男性の平均身長(170.8cm)+誤差(e)
誤差の値は測定対象ごとに異なる。1つの値に定まることはないし、自分の好き勝手に値を変えることもできない。つまり、誤差は定数でも変数でもない。数学の授業で方程式を解くときにも誤差項なんて出てこなかったはずだ。
ところが統計学では誤差が最も重要になる。まず、誤差がないと統計手法を使うことができない(多くの統計手法は誤差を掛けたり割ったりしなければならない)。どの統計手法を使うかも誤差のばらつきかたで決まってしまう。
平均値が「真の値」と呼べるのも、誤差のばらつきが正規分布に従っているときだけだ。「平均年収」とか「平均貯蓄」など、ニュースで流れる平均値が本当らしく思えないのは、正規分布していないケースが多いからだ(こういった場合は、平均値よりも中央値が真の値である可能性が高い)。
統計学では誤差を「系統誤差(systematic error)」と「確率誤差(random error)」とに分けて考える。系統誤差とは、測定の仕方や測定対象の選び方から生じる誤差で、規則性がある。
血圧の測定で、自宅で測定したときよりも病院で測定したときに血圧が高くなる現象を、白衣の人を前にすると高血圧になるということから「白衣高血圧」と呼ぶが、これも、系統誤差の一種と見なせる(病院のほうが落ち着いて逆に血圧が下がる人もいる)。
系統誤差は式に組み込む事が可能だ。さきほどの身長について、母集団を17歳男性から17歳全員に拡げてみた場合、性別の差(12.8cm)が系統誤差になり、次のようになる。
身長(x)=170.8 − 12.8 × 性別(男性:0/女性:1)+ 誤差(e)
系統誤差を除いたあとに残っている誤差が「確率誤差」である。偶発的に生じる誤差なので「偶然誤差」とも言う。分散分析表に出てくる「誤差」は、この確率誤差を指している。分散分析では、系統誤差(の分散)と確率誤差(の分散)を比べて、系統誤差が確率誤差よりも有意に大きいかどうかを検定している。まさしく、誤差の問題と言える。