BellCurve 統計WEB

未経験からデータ分析が学べる
未経験からデータ分析が学べる
  • Step1. 基礎編
  • 27. 回帰分析

27-1. 単回帰分析


回帰とは、目的変数yについて説明変数xを使った式で表すことをいいます(目的変数と説明変数の詳細については1-5章を参照)。この式のことを「回帰方程式」、あるいは簡単に「回帰式」といいます。また、回帰式を求めることを「回帰分析」といいます。

例題:

次の散布図は都道府県の人口密度と人口10万人あたりの薬局の数を示したものです。薬局の数 y を目的変数、人口密度 x を説明変数とするとき、回帰式を求めるとどのようになるでしょうか。

図1

出典:総務省統計局 社会生活統計指標-都道府県の指標-2015

次の2つの図は散布図上に回帰式を描いたものです。このように、データに対しては様々な回帰式を求めることができます。この章では、左側の図のように y=\beta_{0}+\beta_{1} x\beta_{0} は切片、\beta_{1} は傾きを表します)という一次関数で表される回帰式について説明します。

図2

回帰式 y=\beta_{0}+\beta_{1}x には、説明変数 x が1つだけ用いられています。このような式を「単回帰式」といい、単回帰式を求めることを「単回帰分析」といいます。一方、説明変数を複数使った回帰式を求めることもできます。このような式を「重回帰式」といい、重回帰式を求めることを「重回帰分析」といいます。

■単回帰式 y=\beta_{0}+\beta_{1}x における \beta_{0}\beta_{1} の求め方

今考えようとしている y=\beta_{0}+\beta_{1} x は、薬局の数 y を人口密度 x の式で表した“真の”(あるいは理論的な)単回帰式です。しかしながら、実際のデータには測定誤差など様々な誤差を含んでいると考えられることから、次のような回帰式を考えます。

 \displaystyle y=\beta_{0}+\beta_{1} x+u

u は「誤差」で、「真の回帰式から実際のデータまでのズレ」を表すものとします。

図3

単回帰分析における \beta_{0}\beta_{1} は、すべてのデータの誤差 u_{i} が小さくなるように定まります。例えば実際のデータが n 個ある場合に、i 番目の値を(x_{i}, y_{i})とすると、真の回帰式から求められる値は(x_{i}, \beta_{0}+\beta_{1} x_{i})となります。これらを用いると、誤差 u_{i} は次のように求められます。

u_{i}=実際のデータの値-真の回帰式から求められる値=y_{i}-\left(\beta_{0}+\beta_{1} x_{i} \right)

図4

ただし、真の回帰式 y = \beta_{0} + \beta_{1}x\beta_{0}\beta_{1} は神のみぞ知る値であり、直接求めることはできません。そこで、実際のデータを使って \hat{\beta}_{0}\beta_{0}の推定値)と \hat{\beta}_{1}\beta_{1}の推定値)を推定することを考えます。次の式で表される e_{i} の二乗和を考え、この二乗和が最小となるように \hat{\beta}_{0}\hat{\beta}_{1} を算出します。この方法を「最小二乗法」といいます。

 \displaystyle \sum_{i=1}^{n}e_{i}^{2} =\sum_{i=1}^{n}\left\{y_{i}-\left(\hat{\beta}_{0}+\hat{\beta}_{1} x_{i} \right)\right\}^{2}

e_i は「残差」とよばれるもので、人口密度のデータを回帰式に代入して得られた値と、実際の薬局の数のデータとの差を表します。誤差 u_i とは異なるので注意が必要です。誤差と残差のちがいについては27-4章をご覧ください。

最小二乗法により推定された \hat{\beta}_{0}\hat{\beta}_{1} は「偏回帰係数」と呼ばれます。これらは実際のデータから算出された推定値であり、真の回帰式における \beta_{0}\beta_{1} とは異なることから「^(ハット)」をつけて表します。例題のデータから推定された単回帰式は、\hat{y} を人口10万人あたりの薬局の数の推定値、x を人口密度とすると次のようになります。

 \displaystyle \hat{y} =17.94+0.064x

また、\hat{\beta}_{0}\hat{\beta}_{1} はそれぞれ次のようになります。

 \displaystyle \hat{\beta}_{0}=17.94
 \displaystyle \hat{\beta}_{1}=0.064

この回帰式の y は実際のデータではなく、回帰式から算出される推定値であることから「\hat{y}」と表します。偏回帰係数 \hat{\beta}_{1}=0.064x(人口密度)が1増加したときに \hat{y}(薬局の数)がどれだけ増加/減少するかを表す値です。

【コラム1】\beta_{0}\beta_{1} の求め方

最小二乗法を用いて回帰式 y=\beta_{0}+\beta_{1} x\beta_{0}\beta_{1} を定める場合、次の式を \beta_{0}\beta_{1} それぞれで偏微分した式を0とした2つの式を使います。

 \displaystyle \sum_{i=1}^{n}e_{i}^{2} =\sum_{i=1}^{n}\left\{y_{i}-\left(\beta_{0}+\beta_{1} x_{i} \right)\right\}^{2}

2つの式は煩雑なためここでは記述を省略しますが、整理することで次のように \hat{\beta}_{0}\hat{\beta}_{1} を求める式を導くことができます。

 \displaystyle \hat{\beta}_{1}=\frac{\displaystyle \sum_{i=1}^{n} \left(y_{i}-\overline{y} \right)\left(x_{i}-\overline{x} \right)}{\displaystyle \sum_{i=1}^{n} \left(x_{i}-\overline{x} \right)^{2}}
 \displaystyle \hat{\beta}_{0}=  \overline{y} - \hat{\beta}_{1} \overline{x}

【コラム2】誤差u_{i} の仮定

回帰モデルを考えるにあたって、誤差 u_{i} にはいくつかの仮定している条件があります。

  1. u_{i} の期待値は0である:E(u_{i})=0
  2. u_{i} の分散は常に \sigma^2 である:V(u_{i})=\sigma^2
  3. 異なる誤差 u_{i}u_{j} は互いに独立である:Cov(u_i,u_j)=0
  4. 誤差 u_{i} は正規分布に従う

これらの条件から、u_{i} は互いに独立に同一の正規分布 N(0, \sigma^2) に従うと仮定されます。

【コラム3】回帰にまつわる用語

  • 回帰の現象(平均への回帰)

    データを繰り返し測定すると、1回目の測定で高かったり低かったりした値は、2回目の測定ではより全体の平均に近づいた値として観測される現象のことです。例えば、1回目の血圧測定で高めの値が出た人に対して2回目の測定を行うと、血圧測定した集団の平均値に近づいた値になる可能性が高いことが知られています。

  • 回帰の錯誤(回帰の誤謬)

    回帰の現象が観察された場合に、対象者に行われた処置や対応による効果であると誤って判断してしまうことを指します。例えば、1回目の血圧測定で高めの値が出た人に対して「ゆっくりと深呼吸するように」と指摘したことによって、2回目の測定では血圧が下がったと誤った判断を行ってしまう場合があります。このような判断を回帰の錯誤といい、本来であればこのような判断を行うためにはより慎重な検証が必要となります。

■おすすめ書籍

漫画ですが、ある程度の基礎知識が要求されます。それでも、この1冊を読み込めば回帰分析とはなんぞやというのが分かるようになります。


27. 回帰分析

事前に読むと理解が深まる- 学習内容が難しかった方に -


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


統計WEBを運営するBellCurveは、統計解析ソフト「エクセル統計」を開発・販売しています! 統計解析ソフト「エクセル統計」をインストール後のExcel上のタブとメニュー エクセル統計ジャケット画像


【エクセル統計/新規ユーザー】春の年度末SALE!
【エクセル統計/新規ユーザー】春の年度末SALE!

【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)