BellCurve 統計WEB

  • Step1. 基礎編
  • 27. 回帰分析

27-1. 単回帰分析

回帰とは、目的変数yについて説明変数xを使った式で表すことをいいます(目的変数と説明変数の詳細については1-5章を参照)。この式のことを「回帰方程式」、あるいは簡単に「回帰式」といいます。また、回帰式を求めることを「回帰分析」といいます。

例題:

次の散布図は都道府県の人口密度と人口10万人あたりの薬局の数を示したものです。薬局の数yを目的変数、人口密度xを説明変数とするとき、回帰式を求めるとどのようになるでしょうか。

図1

出典:総務省統計局 社会生活統計指標-都道府県の指標-2015

次の2つの図は散布図上に回帰式を描いたものです。このように、データに対しては様々な回帰式を求めることができます。この章では、左側の図のようにy=\beta_{0}+\beta_{1} x\beta_{0}は切片、\beta_{1}は傾きを表します)という一次関数で表される回帰式について説明します。

図2

回帰式y=\beta_{0}+\beta_{1} xには、説明変数xが1つだけ用いられています。このような式を「単回帰式」といい、単回帰式を求めることを「単回帰分析」といいます。一方、説明変数を複数使った回帰式を求めることもできます。このような式を「重回帰式」といい、重回帰式を求めることを「重回帰分析」といいます。

■単回帰式y=β01 xにおける\beta_{0}\beta_{1}の求め方

今考えようとしているy=\beta_{0}+\beta_{1} xは、薬局の数yを人口密度xの式で表した“真の”(あるいは理論的な)単回帰式です。しかしながら、実際のデータには測定誤差など様々な誤差を含んでいると考えられることから、次のような回帰式を考えます。

 \displaystyle y=\beta_{0}+\beta_{1} x+u

uは「誤差」で、「真の回帰式から実際のデータまでのズレ」を表すものとします。

図3

単回帰分析では、すべてのデータの誤差uが小さくなるように\beta_{0}\beta_{1}を算出します。例えば実際のデータがn個ある場合に、i番目の値を(x_{i}, y_{i})とすると、真の回帰式から求められる値は(x_{i}, \beta_{0}+\beta_{1} x_{i})となります。これらを用いると、誤差u_{i}は次のように求められます。

u_{i}=実際のデータの値-真の回帰式から求められる値=y_{i}-\left(\beta_{0}+\beta_{1} x_{i} \right)

図4

すべてのデータの誤差uを小さくするために、次の式で表されるようにそれぞれのデータの誤差uの二乗和を考え、この二乗和が最小となるような\beta_{0}\beta_{1}を算出します。この方法を「最小二乗法」といいます。

 \displaystyle \sum_{i=1}^{n}e_{i}^{2} =\sum_{i=1}^{n}\left\{y_{i}-\left(\beta_{0}+\beta_{1} x_{i} \right)\right\}^{2}

最小二乗法により推定された\beta_{0}\beta_{1}は「偏回帰係数」と呼ばれます。これらは実際のデータから算出された推定値であり、真の回帰式における\beta_{0}\beta_{1}とは異なることから「^(ハット)」をつけて\widehat{\beta}_{0}\widehat{\beta}_{1}と表します。例題のデータから推定された単回帰式は、\widehat{y}を人口10万人あたりの薬局の数の推定値、xを人口密度とすると次のようになります。

 \displaystyle \widehat{y} =17.94+0.064x

また、\widehat{\beta}_{0}\widehat{\beta}_{1}はそれぞれ次のようになります。

 \displaystyle \widehat{\beta}_{0}=17.94
 \displaystyle \widehat{\beta}_{1}=0.064

この回帰式のyは実際のデータではなく、回帰式から算出される推定値であることから「\widehat{y}」と表します。偏回帰係数\widehat{\beta}_{1}=0.064はx(人口密度)が1増加したときに\widehat{y}(薬局の数)がどれだけ増加/減少するかを表す値です。

【コラム1】\beta_{0}\beta_{1}の求め方の詳細

最小二乗法を用いて回帰式y=\beta_{0}+\beta_{1} x\beta_{0}\beta_{1}を定める場合、次の式を\beta_{0}\beta_{1}それぞれで偏微分した式を0とした2つの式を使います。

 \displaystyle \sum_{i=1}^{n}e_{i}^{2} =\sum_{i=1}^{n}\left\{y_{i}-\left(\beta_{0}+\beta_{1} x_{i} \right)\right\}^{2}

2つの式は煩雑なためここでは記述を省略しますが、整理することで次のように\widehat{\beta}_{0}\widehat{\beta}_{1}を求める式を導くことができます。

 \displaystyle \widehat{\beta}_{1}=\frac{\displaystyle \sum_{i=1}^{n} \left(y_{i}-\overline{y} \right)\left(x_{i}-\overline{x} \right)}{\displaystyle \sum_{i=1}^{n} \left(x_{i}-\overline{x} \right)^{2}}
 \displaystyle \widehat{\beta}_{0}=  \overline{y} - \widehat{\beta}_{1} \overline{x}

【コラム2】誤差u_{i}の仮定

回帰モデルを考えるにあたって、誤差u_{i}にはいくつかの仮定している条件があります。

  1. u_{i}の期待値は0である:E(u_{i})=0
  2. u_{i}の分散は常に\sigma^2である:V(u_{i})=\sigma^2
  3. 異なる誤差u_{i}u_{j}は互いに独立である:Cov(u_i,u_j)=0

これらの3条件から、u_{i}は互いに独立に正規分布N(0, \sigma^2)に従うと仮定されます。

【コラム3】回帰にまつわる用語

  • 回帰の現象(平均への回帰)

    データを繰り返し測定すると、1回目の測定で高かったり低かったりした値は、2回目の測定ではより全体の平均に近づいた値として観測される現象のことです。例えば、1回目の血圧測定で高めの値が出た人に対して2回目の測定を行うと、血圧測定した集団の平均値に近づいた値になる可能性が高いことが知られています。

  • 回帰の錯誤(回帰の誤謬)

    回帰の現象が観察された場合に、対象者に行われた処置や対応による効果であると誤って判断してしまうことを指します。例えば、1回目の血圧測定で高めの値が出た人に対して「ゆっくりと深呼吸するように」と指摘したことによって、2回目の測定では血圧が下がったと誤った判断を行ってしまう場合があります。このような判断を回帰の錯誤といい、本来であればこのような判断を行うためにはより慎重な検証が必要となります。

■おすすめ書籍

漫画ですが、ある程度の基礎知識が要求されます。それでも、この1冊を読み込めば回帰分析とはなんぞやというのが分かるようになります。





27. 回帰分析

事前に読むと理解が深まる- 学習内容が難しかった方に -

【BellCurve監修】統計検定2級対策に最適な模擬問題集

Kindleストアで配信中Kindle電子書籍にて

「統計検定2級 模擬問題集1」&「統計検定2級 模擬問題集2」&「統計検定2級 模擬問題集3」を配信中です。