BellCurve 統計WEB

  • Step1. 初級編
  • 27. 回帰分析

27-4. 決定係数

決定係数はデータに対する、推定された回帰式の当てはまりの良さ(度合い)を表します。決定係数は一般にR^{2}で示され、0から1までの値をとります。1に近いほど、回帰式が実際のデータに当てはまっていることを表しており、説明変数目的変数をよく説明していると言えます。

■決定係数の例

いくつかの単回帰式とその決定係数を見てみます。決定係数は上から順に「0.9」「0.6」「0.3」です。

図1

■決定係数の求め方

決定係数を求めるにためには、実際のデータと推定された回帰式から「全変動」「回帰変動」「残差変動」の3つを求める必要があります。ここでは実際のデータを(x_{i}, y_{i})、回帰式から推定されたデータを(x_{i}, \widehat{y}_{i})、データ全体から求められる平均値を(\overline{x}, \overline{y})とします。

図4

  • 「全変動」:実際のデータとデータ全体の平均値との差を表します(上の図の緑の部分)
  • 「回帰変動」:実際のデータと推定された回帰式から得られた予測値との差を表します(上の図の紫の部分)
  • 「残差変動」:推定された回帰式から得られた予測値とデータ全体の平均値の差を表します(上の図の赤の部分)

これらの変動は二乗和として算出します。

変動計算式
全変動の平方和
 \displaystyle \sum_{i=1}^{n}(y_{i}-\overline{y})^{2}
残差変動の平方和
 \displaystyle \sum_{i=1}^{n}(y_{i}-\widehat{y}_{i})^{2}
回帰変動の平方和
 \displaystyle \sum_{i=1}^{n}(\widehat{y}_{i}-\overline{y})^{2}

上の図から、

「全変動」=「回帰変動」+「残差変動」

という式が成り立つことが分かります。決定係数は、説明変数が目的変数をどれくらい説明しているか、つまり「回帰変動が全変動に対してどれだけ多いか=残差変動が全変動に対してどれだけ少ないか」を表すものです。したがって決定係数は、次に示すように回帰変動を全変動で割ることで求められます。

 \displaystyle R^{2}=\frac{\displaystyle \sum_{i=1}^{n}(\widehat{y}_{i}-\overline{y})^{2} }{\displaystyle \sum_{i=1}^{n}(y_{i}-\overline{y})^{2}}=1-\frac{\displaystyle \sum_{i=1}^{n}(y_{i}-\widehat{y}_{i})^{2} }{\displaystyle \sum_{i=1}^{n}(y_{i}-\overline{y})^{2}}

■自由度調整済み決定係数

決定係数は説明変数の数が増えるほど1に近づくという性質を持っています。そのため、説明変数の数が多い場合には、この点を補正した「自由度調整済み決定係数(自由度修正済み決定係数)」を使います。自由度調整済み決定係数は次の式から求められます。nはサンプルサイズを、kは説明変数の数を表します。

 \displaystyle R_{f}^{2}=1-\frac{\frac{\sum_{i=1}^{n}(y_{i}-\widehat{y}_{i})^{2} }{n-1-k}}{\frac{\sum_{i=1}^{n}(y_{i}-\overline{y})^{2}}{n-1}}

27‐2章で示した次のデータの場合、決定係数は「0.55」、自由度調整済み決定係数は「0.51」となり、変数の数の影響が調整された自由度調整済み決定係数のほうが決定係数に比べて小さくなっていることが分かります。

27. 回帰分析

事前に読むと理解が深まる- 学習内容が難しかった方に -

統計検定バナー 「統計学の時間」では、記事を最後まで読むことで、統計検定2級に合格する力が身につくことを目標としています。