Step1. 基礎編
27. 回帰分析

27-1. 単回帰分析

回帰とは、目的変数 $y$ について説明変数 $x$ を使った式で表すことをいいます（目的変数と説明変数の詳細については1-5章を参照）。この式のことを「回帰方程式」、あるいは簡単に「回帰式」といいます。また、回帰式を求めることを「回帰分析」といいます。

例題：

次の散布図は都道府県の人口密度と人口10万人あたりの薬局の数を示したものです。薬局の数 $y$ を目的変数、人口密度 $x$ を説明変数とするとき、回帰式を求めるとどのようになるでしょうか。

出典：総務省統計局社会生活統計指標－都道府県の指標－2015

次の2つの図は散布図上に回帰式を描いたものです。このように、データに対しては様々な回帰式を求めることができます。この章では、左側の図のように $y=\beta_{0}+\beta_{1} x$ （ $\beta_{0}$ は切片、 $\beta_{1}$ は傾きを表します）という一次関数で表される回帰式について説明します。

回帰式 $y=\beta_{0}+\beta_{1}x$ には、説明変数 $x$ が1つだけ用いられています。このような式を「単回帰式」といい、単回帰式を求めることを「単回帰分析」といいます。一方、説明変数を複数使った回帰式を求めることもできます。このような式を「重回帰式」といい、重回帰式を求めることを「重回帰分析」といいます。

■単回帰式 $y=\beta_{0}+\beta_{1}x$ における $\beta_{0}$ と $\beta_{1}$ の求め方

今考えようとしている $y=\beta_{0}+\beta_{1} x$ は、薬局の数 $y$ を人口密度 $x$ の式で表した“真の”（あるいは理論的な）単回帰式です。しかしながら、実際のデータには測定誤差など様々な誤差を含んでいると考えられることから、次のような回帰式を考えます。

$\displaystyle y=\beta_{0}+\beta_{1} x+u$

$u$ は「誤差」で、「真の回帰式から実際のデータまでのズレ」を表すものとします。

単回帰分析における $\beta_{0}$ と $\beta_{1}$ は、すべてのデータの誤差 $u_{i}$ が小さくなるように定まります。例えば実際のデータが $n$ 個ある場合に、 $i$ 番目の値を（ $x_{i}$ , $y_{i}$ ）とすると、真の回帰式から求められる値は（ $x_{i}$ , $\beta_{0}+\beta_{1} x_{i}$ ）となります。これらを用いると、誤差 $u_{i}$ は次のように求められます。

$u_{i}=$ 実際のデータの値 $-$ 真の回帰式から求められる値 $=y_{i}-\left(\beta_{0}+\beta_{1} x_{i} \right)$

ただし、真の回帰式 $y = \beta_{0} + \beta_{1}x$ の $\beta_{0}$ と $\beta_{1}$ は神のみぞ知る値であり、直接求めることはできません。そこで、実際のデータを使って $\hat{\beta}_{0}$ （ $\beta_{0}$ の推定値）と $\hat{\beta}_{1}$ （ $\beta_{1}$ の推定値）を推定することを考えます。次の式で表される $e_{i}$ の二乗和を考え、この二乗和が最小となるように $\hat{\beta}_{0}$ と $\hat{\beta}_{1}$ を算出します。この方法を「最小二乗法」といいます。

$\displaystyle \sum_{i=1}^{n}e_{i}^{2} =\sum_{i=1}^{n}\left\{y_{i}-\left(\hat{\beta}_{0}+\hat{\beta}_{1} x_{i} \right)\right\}^{2}$

$e_i$ は「残差」とよばれるもので、人口密度のデータを回帰式に代入して得られた値と、実際の薬局の数のデータとの差を表します。誤差 $u_i$ とは異なるので注意が必要です。誤差と残差のちがいについては27-4章をご覧ください。

最小二乗法により推定された $\hat{\beta}_{0}$ と $\hat{\beta}_{1}$ は「偏回帰係数」と呼ばれます。これらは実際のデータから算出された推定値であり、真の回帰式における $\beta_{0}$ と $\beta_{1}$ とは異なることから「^（ハット）」をつけて表します。例題のデータから推定された単回帰式は、 $\hat{y}$ を人口10万人あたりの薬局の数の推定値、 $x$ を人口密度とすると次のようになります。

$\displaystyle \hat{y} =17.94+0.064x$

また、 $\hat{\beta}_{0}$ と $\hat{\beta}_{1}$ はそれぞれ次のようになります。

$\displaystyle \hat{\beta}_{0}=17.94$

$\displaystyle \hat{\beta}_{1}=0.064$

この回帰式の $y$ は実際のデータではなく、回帰式から算出される推定値であることから「 $\hat{y}$ 」と表します。偏回帰係数 $\hat{\beta}_{1}=0.064$ は $x$ （人口密度）が1増加したときに $\hat{y}$ （薬局の数）がどれだけ増加/減少するかを表す値です。

【コラム1】 $\beta_{0}$ と $\beta_{1}$ の求め方

最小二乗法を用いて回帰式 $y=\beta_{0}+\beta_{1} x$ の $\beta_{0}$ と $\beta_{1}$ を定める場合、次の式を $\beta_{0}$ と $\beta_{1}$ それぞれで偏微分した式を0とした2つの式を使います。

$\displaystyle \sum_{i=1}^{n}e_{i}^{2} =\sum_{i=1}^{n}\left\{y_{i}-\left(\beta_{0}+\beta_{1} x_{i} \right)\right\}^{2}$

2つの式は煩雑なためここでは記述を省略しますが、整理することで次のように $\hat{\beta}_{0}$ と $\hat{\beta}_{1}$ を求める式を導くことができます。

$\displaystyle \hat{\beta}_{1}=\frac{\displaystyle \sum_{i=1}^{n} \left(y_{i}-\overline{y} \right)\left(x_{i}-\overline{x} \right)}{\displaystyle \sum_{i=1}^{n} \left(x_{i}-\overline{x} \right)^{2}}$

$\displaystyle \hat{\beta}_{0}= \overline{y} - \hat{\beta}_{1} \overline{x}$

【コラム2】誤差 $u_{i}$ の仮定

回帰モデルを考えるにあたって、誤差 $u_{i}$ にはいくつかの仮定している条件があります。

$u_{i}$ の期待値は0である： $E(u_{i})=0$
$u_{i}$ の分散は常に $\sigma^2$ である： $V(u_{i})=\sigma^2$
異なる誤差 $u_{i}$ 、 $u_{j}$ は互いに独立である： $Cov(u_i,u_j)=0$
誤差 $u_{i}$ は正規分布に従う

これらの条件から、 $u_{i}$ は互いに独立に同一の正規分布 $N(0, \sigma^2)$ に従うと仮定されます。

【コラム3】回帰にまつわる用語

回帰の現象（平均への回帰）
データを繰り返し測定すると、1回目の測定で高かったり低かったりした値は、2回目の測定ではより全体の平均に近づいた値として観測される現象のことです。例えば、1回目の血圧測定で高めの値が出た人に対して2回目の測定を行うと、血圧測定した集団の平均値に近づいた値になる可能性が高いことが知られています。
回帰の錯誤（回帰の誤謬）
回帰の現象が観察された場合に、対象者に行われた処置や対応による効果であると誤って判断してしまうことを指します。例えば、1回目の血圧測定で高めの値が出た人に対して「ゆっくりと深呼吸するように」と指摘したことによって、2回目の測定では血圧が下がったと誤った判断を行ってしまう場合があります。このような判断を回帰の錯誤といい、本来であればこのような判断を行うためにはより慎重な検証が必要となります。