BellCurve 統計WEB

  • Step1. 基礎編
  • 27. 回帰分析

27-2. 重回帰分析

重回帰分析は複数の説明変数x_{i}(i=1, 2, 3, ・・・)を用いて目的変数yを表す回帰式を算出することです。例えば、次のようなデータについて考えてみます。

図1

出典:総務省統計局 社会生活統計指標-都道府県の指標-2015

このデータでは年日照時間を目的変数yとし、残りの4変数を説明変数とします。年平均気温をx_{1}、人口密度をx_{2}、持ち家比率をx_{3}、降水量をx_{4}とするとき、次のような重回帰式を求めることを考えます。

 \displaystyle y=\beta_{0}+\beta_{1}x_{1}+\beta_{2}x_{2}+\beta_{3}x_{3}+\beta_{4}x_{4}

重回帰分析の偏回帰係数も、単回帰分析と同様に最小二乗法で求めます。このデータを用いてエクセル統計で重回帰分析を行うと、偏回帰係数について次のような結果が得られます。

図2

■偏回帰係数

偏回帰係数は上で示した式の\beta_{i}(i=0, 1, 2, 3, 4)の推定値です。定数項は切片のことで、\beta_{0}の値を示します。これらの値から、重回帰式は次のようになります。

 \displaystyle \widehat{y}=538.7+77.2x_{1}+0.04x_{2}+11.2x_{3}-0.26x_{4}

ある偏回帰係数は、それ以外の説明変数の値を固定した(変化させない)場合に、その説明変数が1増加するとyがどれだけ増加/減少するかを示しています。例えば、人口密度、持ち家比率、降水量を固定した場合、年平均気温が1℃上がると年日照時間が77.2時間増加すると考えられます。

■標準偏回帰係数

標準偏回帰係数は、説明変数および目的変数をそれぞれ標準化した値から算出される偏回帰係数のことです。標準偏回帰係数は重回帰式における各変数の重要性を表す指標であり、標準化偏回帰係数どうしの大小を比較できます。

例えば上に示したデータの場合、人口密度の標準偏回帰係数0.19と比較して年平均気温0.72の方が大きいことから、年平均気温の方が目的変数に与える影響が大きいことが分かります。一方、通常の偏回帰係数ではその大小から各変数の重要性を判断することはできません。

■偏回帰係数の有意性の検定

偏回帰係数の有意性の検定とは、定数項も含めた各偏回帰係数\widehat{\beta}_iが0であるかについての検定結果です。帰無仮説は「偏回帰係数=0」です。偏回帰係数\widehat{\beta}_i標準誤差で割った値について、自由度(n-k-1)のt分布を用いて検定を行います。すなわち、次の式から算出される統計量t(t値)が自由度(n-k-1)のt分布に従うことを用います。nはサンプルサイズを、kは説明変数の数を表します。

 \displaystyle t_i=\frac{\widehat{\beta}_i-0}{se(\widehat{\beta}_i)}

この検定により有意となった場合、偏回帰係数は0ではない、すなわちその説明変数の目的変数に対する影響は統計的に有意であると言うことができます。例えば、年平均気温の偏回帰係数の有意性の検定ではt値は次のように算出されます。

 \displaystyle t_{avetemp}=\frac{77.24-0}{12.83}=6.02

この値が自由度47-4-1=42のt分布に従うことを用いて検定を行います。

■偏回帰係数の信頼区間

偏回帰係数の有意性の検定で用いた自由度(n-k-1)のt分布を使うと、次の式から偏回帰係数\widehat{\beta}(100(1-\alpha)\%)信頼区間を求めることができます。nは抽出したサンプルサイズ、kは説明変数の数、t_{\frac{\alpha}{2}}(n-k-1)は自由度が(n-k-1)のt分布における上側確率が\displaystyle \frac{\alpha}{2}となる値(t値)を表します。

 \displaystyle \widehat{\beta}_i-t_{\frac{\alpha}{2}}(n-k-1) \times se(\widehat{\beta}_i) \leq \beta_i \leq \widehat{\beta}_i+t_{\frac{\alpha}{2}}(n-k-1) \times se(\widehat{\beta}_i)

例えば、年平均気温の偏回帰係数の95%信頼区間は次のように算出されます。

 \displaystyle 77.24-2.02 \times 12.83 \leq \beta_i \leq 77.24+2.02 \times 12.83
 \displaystyle 51.32 \leq \beta_i \leq 103.16

【コラム】ダミー変数

ダミー変数とは、カテゴリカルデータや2値型データのようなもともと数値でないデータに対して、0と1を用いて数量化した変数のことです。例えば、身長を目的変数y、体重と性別を説明変数x_1, x_2として重回帰分析を行う場合に、「男性=0」、「女性=1」として重回帰式を求める場合があります。

 \displaystyle y=100+1.2x_1-5x_2

例えば上のような重回帰式では、性別x_2に0を代入すると男性の身長を予測するための重回帰式が、性別x_2に1を代入すると女性の身長を予測するための重回帰式が得られます。

■おすすめ書籍

WEBで公開されているアイスクリーム統計学を書籍化したものです。なんとなく分かりにくい回帰分析と因子分析のイメージを掴むのにぴったりです。





27. 回帰分析

事前に読むと理解が深まる- 学習内容が難しかった方に -

【BellCurve監修】統計検定2級対策に最適な模擬問題集

Kindleストアで配信中Kindle電子書籍にて

「統計検定2級 模擬問題集1」&「統計検定2級 模擬問題集2」&「統計検定2級 模擬問題集3」を配信中です。