BellCurve 統計WEB

  • Step1. 初級編
  • 27. 回帰分析

27-1. 単回帰分析

回帰とは、目的変数yについて説明変数xを使った式で表すことをいいます(目的変数と説明変数の詳細については1-5章を参照)。この式のことを「回帰方程式」、あるいは簡単に「回帰式」といいます。また、回帰式を求めることを「回帰分析」といいます。

例題:

次の散布図は都道府県の人口密度と人口10万人あたりの薬局の数を示したものです。薬局の数yを目的変数、人口密度xを説明変数とするとき、回帰式を求めるとどのようになるでしょうか。

図1

出典:総務省統計局 社会生活統計指標-都道府県の指標-2015

次の2つの図は散布図上に回帰式を描いたものです。このように、データに対しては様々な回帰式を求めることができます。この章では、左側の図のようにy=\beta_{0}+\beta_{1} x\beta_{0}は切片、\beta_{1}は傾きを表します)という一次関数で表される回帰式について説明します。

図2

回帰式y=\beta_{0}+\beta_{1} xには、説明変数xが1つだけ用いられています。このような式を「単回帰式」といい、単回帰式を求めることを「単回帰分析」といいます。一方、説明変数を複数使った回帰式を求めることもできます。このような式を「重回帰式」といい、重回帰式を求めることを「重回帰分析」といいます。

■単回帰式y=β01 xにおける\beta_{0}\beta_{1}の求め方

今考えようとしているy=\beta_{0}+\beta_{1} xは、薬局の数yを人口密度xの式で表した“真の”(あるいは理論的な)単回帰式です。しかしながら、実際のデータには測定誤差など様々な誤差を含んでいると考えられることから、次のような回帰式を考えます。

 \displaystyle y=\beta_{0}+\beta_{1} x+u

uは「誤差」で、「真の回帰式から実際のデータまでのズレ」を表すものとします。

図3

単回帰分析では、すべてのデータの誤差uが小さくなるように\beta_{0}\beta_{1}を算出します。例えば実際のデータがn個ある場合に、i番目の値を(x_{i}, y_{i})とすると、真の回帰式から求められる値は(x_{i}, \beta_{0}+\beta_{1} x_{i})となります。これらを用いると、誤差u_{i}は次のように求められます。

u_{i}=実際のデータの値-真の回帰式から求められる値=y_{i}-\left(\beta_{0}+\beta_{1} x_{i} \right)

図4

すべてのデータの誤差uを小さくするために、次の式で表されるようにそれぞれのデータの誤差uの二乗和を考え、この二乗和が最小となるような\beta_{0}\beta_{1}を算出します。この方法を「最小二乗法」といいます。

 \displaystyle \sum_{i=1}^{n}e_{i}^{2} =\sum_{i=1}^{n}\left\{y_{i}-\left(\beta_{0}+\beta_{1} x_{i} \right)\right\}^{2}

最小二乗法により推定された\beta_{0}\beta_{1}は「偏回帰係数」と呼ばれます。これらは実際のデータから算出された推定値であり、真の回帰式における\beta_{0}\beta_{1}とは異なることから「^(ハット)」をつけて\widehat{\beta}_{0}\widehat{\beta}_{1}と表します。例題のデータから推定された単回帰式は、\widehat{y}を人口10万人あたりの薬局の数の推定値、xを人口密度とすると次のようになります。

 \displaystyle \widehat{y} =17.94+0.064x

また、\widehat{\beta}_{0}\widehat{\beta}_{1}はそれぞれ次のようになります。

 \displaystyle \widehat{\beta}_{0}=17.94
 \displaystyle \widehat{\beta}_{1}=0.064

この回帰式のyは実際のデータではなく、回帰式から算出される推定値であることから「\widehat{y}」と表します。偏回帰係数\widehat{\beta}_{1}=0.064はx(人口密度)が1増加したときに\widehat{y}(薬局の数)がどれだけ増加/減少するかを表す値です。

【コラム】\beta_{0}\beta_{1}の求め方の詳細

最小二乗法を用いて回帰式y=\beta_{0}+\beta_{1} x\beta_{0}\beta_{1}を定める場合、次の式を\beta_{0}\beta_{1}それぞれで偏微分した式を0とした2つの式を使います。

 \displaystyle \sum_{i=1}^{n}e_{i}^{2} =\sum_{i=1}^{n} \left\{y_{i}-(\beta_{0}+\beta_{1} x_{i}\right)\right\}^{2}

2つの式は煩雑なためここでは記述を省略しますが、整理することで次のように\widehat{\beta}_{0}\widehat{\beta}_{1}を求める式を導くことができます。

 \displaystyle \widehat{\beta}_{1}=\frac{\displaystyle \sum_{i=1}^{n} \left(y_{i}-\overline{y} \right)\left(x_{i}-\overline{x} \right)}{\displaystyle \sum_{i=1}^{n} \left(x_{i}-\overline{x} \right)^{2}}
 \displaystyle \widehat{\beta}_{0}=  \overline{y} - \widehat{\beta}_{1} \overline{x}

27. 回帰分析

事前に読むと理解が深まる- 学習内容が難しかった方に -

統計検定バナー 「統計学の時間」では、記事を最後まで読むことで、統計検定2級に合格する力が身につくことを目標としています。