BellCurve 統計WEB

  • Step1. 初級編
  • 27. 回帰分析

27-3. 予測値と残差

データから回帰式を推定すると、データの「予測値」が算出できます。これは、ある値xから予測される\widehat{y}の値を求めることです。27‐1章で示した、yを人口10万人あたりの薬局の数、xを人口密度とした場合のデータから求められた回帰式を使って予測値を求めてみます。回帰式は

 \displaystyle \widehat{y}=17.94+0.064x

と推定されました。この式を使うと、例えば人口密度が100人/km^{2}のときに予測される人口10万人あたりの薬局の数は次のように求められます。

 \displaystyle \widehat{y}=17.94+0.064 \times 100 = 82

実際の人口密度のデータxを回帰式に代入して得られた\widehat{y}の値と、実際の薬局の数のデータyとの差は「回帰残差」、あるいは簡単に「残差」とよばれます。i番目のデータの残差を「e_{i}」を用いて表すと、

 \displaystyle e_{i}=y_{i}-\left(\widehat{\beta}_{0}+\widehat{\beta}_{1} x_{i} \right)

となります。

■残差と誤差

27-1章で出てきた「誤差u」と、この章で出てきた「残差e」は似ているように見えますが、異なる意味を持ちます。「誤差u」は求めようとする真の回帰式から算出される値と実際のデータとの差を表します。真の回帰式はあくまでも理論的なものであるため、誤差を計算で求めることはできません。一方の「残差e」は実際のデータを用いて推定された回帰式から算出される値と実際のデータとの差を表します。誤差とは異なり残差は計算で求められます。

図1

■残差の性質

残差にはいくつかの性質があります。

  • 残差の総和は0である
  •  \displaystyle \sum e_{i}=0
  • 説明変数x_{i}と残差e_{i}の積和は0である(この式は、説明変数説明変数x_{i}と残差e_{i}との間には相関がない(=無相関である)ということを表します)
 \displaystyle \sum x_{i} e_{i}=0

■残差の評価

回帰式を評価する方法には、決定係数以外に「残差のばらつきを見る」という方法もあります。回帰式がデータに対して妥当であれば、残差は適当にばらつきます(分散均一性といいます)。これをチェックするために、各データの残差を左から順番に並べた「残差プロット」というグラフを作成します。横軸はデータの番号を、縦軸は残差の値を表します。

図2

残差プロットでは、縦軸の「0」に対して、残差がどのようにばらついているかを確認します。残差が縦軸「0」に対して均一に分散している場合、大きな問題はありません。残差プロットの中で他とは異なり大きく外れている値が少数ある場合、外れ値である可能性があります。

図3

また、次のグラフに示すように、残差が徐々に大きくあるいは小さくなっていたり、何かしらの傾向が見られる場合は要注意です。この場合、推定された回帰式が妥当ではない可能性があります。

図4

27. 回帰分析