BellCurve 統計WEB

  • Step1. 基礎編
  • 27. 回帰分析

27-2. 最小二乗法

27-1章で学んだように、回帰分析では偏回帰係数を最小二乗法を用いて算出します。この章では偏回帰係数の実際の求め方について学びます。



最小二乗法を用いて回帰式y=\beta_{0}+\beta_{1} x\beta_{0}\beta_{1}を定める場合、次の式を\beta_{0}\beta_{1}それぞれで偏微分した式を0とした2つの式を使います。

 \displaystyle E =\sum_{i=1}^{n}\left\{y_{i}-\left(\beta_{0}+\beta_{1} x_{i} \right)\right\}^{2}

\beta_{0}で偏微分すると、

 \displaystyle \frac{\delta E}{\delta \beta_{0}} = -2 \sum_{i=1}^{n}(y_{i}-\beta_{0}-\beta_{1} x_{i})

となり、\beta_{1}で偏微分すると、

 \displaystyle \frac{\delta E}{\delta \beta_{1}} = -2 \sum_{i=1}^{n}(y_{i}-\beta_{0}-\beta_{1} x_{i})x_{i}

となります。これらの式を0とすると、次のような式が得られます。

 \displaystyle -2 \sum_{i=1}^{n}(y_{i}-\beta_{0}-\beta_{1} x_{i}) = 0 \\ \Leftrightarrow \sum_{i=1}^{n}(y_{i}-\beta_{0}-\beta_{1} x_{i}) = 0 \\ \Leftrightarrow \sum_{i=1}^{n}y_{i} - \sum_{i=1}^{n}\beta_{0} - \sum_{i=1}^{n}\beta_{1} x_{i} = 0 \\ \Leftrightarrow \sum_{i=1}^{n}y_{i} - n\beta_{0} - \sum_{i=1}^{n}\beta_{1} x_{i} = 0 \\ \Leftrightarrow \sum_{i=1}^{n}y_{i} = n\beta_{0} + \sum_{i=1}^{n}\beta_{1} x_{i} \dots(1) \\


 \displaystyle -2 \sum_{i=1}^{n}(y_{i}-\beta_{0}-\beta_{1} x_{i})x_{i} = 0 \\ \Leftrightarrow \sum_{i=1}^{n}(y_{i}-\beta_{0}-\beta_{1} x_{i})x_{i} = 0 \\ \Leftrightarrow \sum_{i=1}^{n}(x_{i}y_{i} - x_{i}\beta_{0} - x_{i}^2\beta_{1}) = 0 \\ \Leftrightarrow \sum_{i=1}^{n}x_{i}y_{i} = \sum_{i=1}^{n}x_{i}\beta_{0} + \sum_{i=1}^{n}x_{i}^2\beta_{1} \dots(2) \\

これら(1)(2)の式(正規方程式とよばれることがあります)を整理することで、\beta_{0}\beta_{1}の推定値である\widehat{\beta}_{0}\widehat{\beta}_{1}を求める式を導くことができます。

(1)の式を変形すると

 \displaystyle \sum_{i=1}^{n}y_{i} = n\beta_{0} + \sum_{i=1}^{n}\beta_{1} x_{i} \\ \Leftrightarrow \frac{1}{n} \sum_{i=1}^{n}y_{i} = \frac{1}{n}n\beta_{0} + \frac{1}{n}\sum_{i=1}^{n}\beta_{1} x_{i} \\ \Leftrightarrow \bar{y} = \beta_{0} + \beta_{1}\bar{x} \\ \Leftrightarrow \beta_{0} = \bar{y} - \beta_{1}\bar{x} \\

となります。\sum_{i=1}^{n}x_{i} \times (1)n \times (2)から(1')(2')を得ます。

 \displaystyle \sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}y_{i} = \sum_{i=1}^{n}x_{i} \times n\beta_{0} + \sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}\beta_{1} x_{i} \\ \Leftrightarrow \sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}y_{i} = n\beta_{0}\sum_{i=1}^{n}x_{i} + \beta_{1} \left\{\sum_{i=1}^{n}x_{i}\right\}}^2 \dots(1') \\
 \displaystyle n\sum_{i=1}^{n}x_{i}y_{i} = n\sum_{i=1}^{n}x_{i}\beta_{0} + n\sum_{i=1}^{n}x_{i}^2\beta_{1} \\ \Leftrightarrow n\sum_{i=1}^{n}x_{i}y_{i} = n\beta_{0}\sum_{i=1}^{n}x_{i} + \beta_{1} n\sum_{i=1}^{n}x_{i}^2 \dots(2') \\

(2')-(1')を計算すると、

     \begin{eqnarray*} \displaystyle  \beta_{1} &=& \frac{n\sum_{i=1}^{n}x_{i}y_{i} - \sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}y_{i}}{n\sum_{i=1}^{n}x_{i}^2 - (\sum_{i=1}^{n}x_{i})^2} \\ &=& \frac{\frac{1}{n^2}}{\frac{1}{n^2}} \times \frac{n\sum_{i=1}^{n}x_{i}y_{i} - \sum_{i=1}^{n}x_{i}\sum_{i=1}^{n}y_{i}}{n\sum_{i=1}^{n}x_{i}^2 - (\sum_{i=1}^{n}x_{i})^2} \\ &=& \frac{\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i} - \frac{1}{n}\sum_{i=1}^{n}x_{i}\frac{1}{n}\sum_{i=1}^{n}y_{i}}{\frac{1}{n}\sum_{i=1}^{n}x_{i}^2 - (\frac{1}{n}\sum_{i=1}^{n}x_{i})^2} \\ &=& \frac{\frac{1}{n}\sum_{i=1}^{n}x_{i}y_{i} - \bar{x}\bar{y}}{\frac{1}{n}\sum_{i=1}^{n}x_{i}^2 - \bar{x}^2} \\ &=& \frac{\frac{1}{n}(\sum_{i=1}^{n}x_{i}y_{i} - n\bar{x}\bar{y})}{\frac{1}{n}(\sum_{i=1}^{n}x_{i}^2 - n\bar{x}^2)} \\ &=& \frac{\sum_{i=1}^{n}(x_{i}y_{i} - 2\bar{x}\bar{y} + \bar{x}\bar{y})}{\sum_{i=1}^{n}(x_{i}^2 - 2\bar{x}^2 + \bar{x}^2)} \\ &=& \frac{\sum_{i=1}^{n}(x_{i}y_{i} - \bar{x}\bar{y} - \bar{x}\bar{y} + \bar{x}\bar{y})}{\sum_{i=1}^{n}(x_{i}^2 - 2\bar{x}\bar{x} + \bar{x}^2)} \\ &=& \frac{\sum_{i=1}^{n}(x_{i}y_{i} - \bar{x}y_{i} - x_{i}\bar{y} + \bar{x}\bar{y})}{\sum_{i=1}^{n}(x_{i}^2 - 2x_{i}\bar{x} + \bar{x}^2)} \\ &=& \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})(y_{i} - \bar{y})}{\sum_{i=1}^{n}(x_{i} - \bar{x})^2} \\ \end{eqnarray*}

となります。したがって、\widehat{\beta}_{0}\widehat{\beta}_{1}を求める式は次のようになります。

 \displaystyle \widehat{\beta}_{0}=  \overline{y} - \widehat{\beta}_{1} \overline{x}
 \displaystyle \widehat{\beta}_{1}=\frac{\displaystyle \sum_{i=1}^{n} \left(x_{i}-\overline{x} \right)\left(y_{i}-\overline{y} \right)}{\displaystyle \sum_{i=1}^{n} \left(x_{i}-\overline{x} \right)^{2}}

\widehat{\beta}_{1}は次のように書くこともできます。

 \displaystyle \widehat{\beta}_{1}=\frac{\displaystyle \sum_{i=1}^{n} \left(x_{i}-\overline{x} \right)\left(y_{i}-\overline{y} \right)}{\displaystyle \sum_{i=1}^{n} \left(x_{i}-\overline{x} \right)^{2}} = \frac{S_{xy}}{S_{x}^2} = \frac{S_{xy}S_{y}}{S_{x}S_{x}S_{y}} = \frac{S_{xy}}{S_{x}S_{y}} \times \frac{S_{y}}{S_{x}} = r_{xy}\frac{S_{y}}{S_{x}}

ただし、S_{xy}xyの共分散を、S_{x}^2xの分散を、S_{y}^2yの分散を、r_{xy}xyの相関係数を表します。

■回帰式の特徴

  1. 推定値\widehat{y}の平均値は、実際の観測値y_iの平均と等しい
  2. (1)の両辺をnで割ると

     \displaystyle \frac{1}{n} \times \sum_{i=1}^{n}y_{i} = \frac{1}{n} \times n\beta_{0} + \frac{1}{n} \times \sum_{i=1}^{n}\beta_{1} x_{i} \\ \Leftrightarrow \frac{\sum_{i=1}^{n}y_{i}}{n} = \beta_{0} + \beta_{1}\frac{\sum_{i=1}^{n} x_{i}}{n} \\

    となり、観測値y_iの平均値(左辺)と推定値\widehat{y}=\beta_{0} + \beta_{1}\frac{\sum_{i=1}^{n} x_{i}}{n}の平均値(右辺)が等しくなることが分かります。

    
    
    	
  3. 回帰直線は(\bar{x}, \bar{y})を通る
  4. (1)の式\bar{y} = \beta_{0} + \beta_{1}\bar{x}と回帰式y = \beta_{0} + \beta_{1}xを使って

     \displaystyle (y-\bar{y}) = {\beta}_{1}(x-\bar{x})

    を得ます。この式から、x=\bar{x}のとき、y=\bar{y}となることが分かります。

27. 回帰分析


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)