BellCurve 統計WEB

最大55万円の給付金還付
AI関連の資格対策も多数
  • Step1. 基礎編
  • 27. 回帰分析

27-4. 予測値と残差


データから回帰式を推定すると、データの「予測値」が算出できます。これは、ある値xから予測される\widehat{y}の値のことです。27‐1章で示した、yを人口10万人あたりの薬局の数、xを人口密度とした場合のデータから求められた回帰式を使って予測値を求めてみます。回帰式は

 \displaystyle \widehat{y}=17.94+0.064x

と推定されました。この式を使うと、例えば人口密度が100人/km^{2}のときに予測される人口10万人あたりの薬局の数は次のように求められます。

 \displaystyle \widehat{y}=17.94+0.064 \times 100 = 82

実際の人口密度のデータxを回帰式に代入して得られた\widehat{y}の値と、実際の薬局の数のデータyとの差は「回帰残差」、あるいは簡単に「残差」とよばれます。i番目のデータの残差を「e_{i}」を用いて表すと、

 \displaystyle e_{i}=y_{i}-\left(\widehat{\beta}_{0}+\widehat{\beta}_{1} x_{i} \right)

となります。

■残差と誤差

27-1章で出てきた「誤差u」と、この章で出てきた「残差e」は似ているように見えますが、異なる意味を持ちます。「誤差u」は求めようとする真の回帰式から算出される値と実際のデータとの差を表します。真の回帰式はあくまでも理論的なものであるため、誤差を計算で求めることはできません。一方の「残差e」は実際のデータを用いて推定された回帰式から算出される値と実際のデータとの差を表します。誤差とは異なり残差は計算で求められます。

図1

■残差の性質

残差にはいくつかの性質があります。

  • 残差の総和は0である
  •  \displaystyle \sum e_{i}=0
  • 説明変数x_{i}と残差e_{i}の積和は0である(この式は、説明変数x_{i}と残差e_{i}との間には相関がない(=無相関である)ということを表します)
 \displaystyle \sum x_{i} e_{i}=0

■残差の評価

回帰式を評価する方法には、決定係数27-4章で説明します)を算出する方法の他に、残差のばらつきを見る「残差分析」という方法があります。回帰式がデータに対して妥当であれば、残差は適当にばらつきます(分散均一性といいます)。これをチェックするために、各データの残差を左から順番に並べた「残差プロット」というグラフを作成します。横軸はデータの番号を、縦軸は残差の値を表します。

図2

残差プロットでは、縦軸の「0」に対して、残差がどのようにばらついているかを確認します。残差が縦軸「0」に対して均一に分散している場合、大きな問題はありません。残差プロットの中で他とは異なり大きく外れている値が少数ある場合、該当する値は外れ値である可能性があります。

図3

また、次のグラフに示すように、残差が徐々に大きくあるいは小さくなっていたり、何かしらの傾向が見られる場合は要注意です。この場合、推定された回帰式が妥当ではない可能性があります。


27. 回帰分析

事前に読むと理解が深まる- 学習内容が難しかった方に -


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


統計WEBを運営するBellCurveは、統計解析ソフト「エクセル統計」を開発・販売しています! 統計解析ソフト「エクセル統計」をインストール後のExcel上のタブとメニュー エクセル統計ジャケット画像


【エクセル統計/新規ユーザー】春の年度末SALE!
【エクセル統計/新規ユーザー】春の年度末SALE!

【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)