重回帰分析─エクセル統計による解析事例
2017/04/19
カテゴリ:解析事例
※ このコンテンツは「エクセル統計(BellCurve for Excel)」を用いた解析事例です。
分析データ
下図のデータは、野球選手20人について球速、遠投、懸垂、握力を測定した結果です。エクセル統計を用いて重回帰分析を行い、球速に影響を与える要因とその影響度を調べます。
ダイアログの設定
まず、データ範囲のラベルを選択します。目的変数のラベル「球速」(C3)を選択後、[Ctrl]キーを押しながら説明変数のラベル「遠投」「懸垂」「握力」(D3:F3)を選択します。
続いて、メニューより[エクセル統計]→[多変量解析]→[重回帰分析]を選択します。目的変数と説明変数が設定済みでダイアログが表示されます。
[変数選択]タブで「方法」を[増減法]に設定し、[変数選択の過程を出力する]をオンにします。
[オプション]タブで[線形結合している変数を除いて分析する]、[予測値を出力する]、[予測値の区間推定を出力する]、[回帰診断の統計量を出力する]、[不均一分散の検定を出力する]をオンにします。[OK]ボタンをクリックして重回帰分析を実行します。
出力内容
出力内容の目次がハイパーリンク付きで出力されます。
ケースの要約
「有効ケース」、「目的変数のみ不明」、「説明変数のみ不明」、「ともに不明」、「全体」の件数および割合が出力されます。「有効ケース」が分析対象となります。
基本統計量
各変数の件数、平均、不偏分散、標準偏差、最小値、最大値が出力されます。
相関行列
各変数間の相関係数が行列形式で出力されます。
線形結合している変数・変数選択の方法
線形結合している変数の有無と変数選択の設定内容が出力されます。
変数選択過程 - 回帰式の精度
変数選択の各ステップで回帰式の精度を表す指標と変数選択により投入または除去された説明変数が出力されます。
- R(重相関係数):
- 目的変数の観測値と予測値との間の相関係数。決定係数の平方根に等しい。0から1の間の値を取り、1に近いほど分析の精度は高い。
- 修正R(自由度修正済み重相関係数):
- サンプルサイズに対する説明変数の数の割合が多くなるほど重相関係数の値は過大評価されやすいため、この点を調整した重相関係数のこと。
- R2乗(決定係数):
- 目的変数の観測値の偏差平方和に占める目的変数の予測値の偏差平方和が占める割合。0から1の間の値を取り、1に近いほど分析の精度は高い。
- 修正R2乗(自由度修正済み決定係数):
- 説明変数の数が増えるほど決定係数も大きくなってしまうため、説明変数の数を考慮した決定係数のこと。回帰式の評価には修正R2乗を用いるのが良い。
- ダービン=ワトソン比:
- 重回帰分析では誤差項間に自己相関がないことを仮定しているが、ダービン=ワトソン比は誤差項間の自己相関の有無を判別するための指標。0以上4以下の値をとり、2前後であれば自己相関なしと判断できる。
- AIC(赤池情報量基準):
- 値が小さいほどモデルのあてはまりが良いことを表す。モデル間で相対的に精度を比較する。
変数選択過程 - 回帰式の有意性(分散分析)
変数選択の各ステップで分散分析を行った結果が出力されます。分散分析の帰無仮説は「回帰変動は0である(偏回帰係数はすべて0である)」です。よほどあてはまりが悪い場合を除いて帰無仮説は棄却されます。決定係数は、回帰変動の偏差平方和を全体変動の偏差平方和で割った値です。
変数選択過程 - 回帰式に含まれる変数
変数選択の各ステップで回帰式に含まれる説明変数の偏回帰係数や偏回帰係数の有意性の検定の結果などが出力されます。
- 偏回帰係数:
- 回帰式における各説明変数の係数。
- 標準誤差:
- 偏回帰係数の推定誤差。
- 標準偏回帰係数:
- データを標準化して重回帰分析を行った場合の偏回帰係数。各説明変数の目的変数への影響度を比較するのに用いる。
- 偏回帰係数の95%信頼区間 - 下限値:
- 偏回帰係数の95%信頼区間の下限値。
- 偏回帰係数の95%信頼区間 - 上限値:
- 偏回帰係数の95%信頼区間の上限値。P値が0.05より大きい場合、95%信頼区間に0を含む。
- 偏回帰係数の有意性の検定 - F値:
- 帰無仮説「偏回帰係数は0である」の検定統計量。
- 偏回帰係数の有意性の検定 - t値:
- 帰無仮説「偏回帰係数は0である」の検定統計量。
- 偏回帰係数の有意性の検定 - P値:
- 帰無仮説「偏回帰係数は0である」の有意確率。P値が最大の説明変数のP値が「除去基準P値」(0.20)より大きい場合、その説明変数が回帰式から除去されます。
- 目的変数との相関 - 単相関:
- 目的変数と各説明変数との相関係数。相関行列と同じ値。
- 目的変数との相関 - 偏相関:
- 目的変数と各説明変数との偏相関係数。
- 多重共線性の統計量 - トレランス:
- 説明変数間の多重共線性を検出するための指標。値が小さいほど多重共線性が強い。多重共線性が強い説明変数を分析から除く場合、0.1を基準とすることが多い。
- 多重共線性の統計量 - VIF(分散拡大要因):
- 説明変数間の多重共線性を検出するための指標。値が大きいほど多重共線性が強い。多重共線性が強い説明変数を分析から除く場合、10を基準とすることが多い。
変数選択過程 - 回帰式に含まれない変数
変数選択の各ステップで回帰式に含まれない説明変数の有意性の検定の結果が出力されます。P値が最小の説明変数のP値が「投入基準P値」(0.20)より小さい場合、その説明変数が回帰式に投入されます。
変数選択結果
変数選択の最後のステップにおける回帰式の精度、回帰式に含まれる変数、回帰式の有意性の検定(分散分析)が出力されます。
変数選択の結果、説明変数「握力」はモデルから除かれました。自由度修正済み決定係数(修正R2乗)は0.3857で高いとは言えませんが悪くない値です。また、「遠投」「懸垂」「定数項」はいずれも有意性検定のP値は0.05未満となっています。
観測値×予測値・残差プロット
横軸に目的変数の観測値、縦軸に目的変数の予測値をとった散布図が出力されます。プロットが対角線近くに集中していれば、モデルのあてはまりが良いと言えます。
また、残差プロットも出力され、縦軸が0の目盛線付近にプロットが集中していれば、モデルのあてはまりが良いと言えます。
予測値と予測値の95%信頼区間
目的変数の観測値(元データ)と予測値、予測値の95%信頼区間が出力されます。先ほどの目的変数の観測値と予測値の散布図は、このデータを用いて作成しています。
回帰診断のための統計量
残差を分析するのための統計量として、残差、標準化残差、スチューデント化残差、影響力を分析するための統計量として、Cookの距離、てこ比が出力されます。
No.14のケースは、スチューデント化残差が2を超えており、Cookの距離も4/20=0.2を超えているので、外れ値の可能性があります。散布図でも集まりから少し離れた右下に位置しています。
- 残差:
- 観測値から予測値を引いた値。残差プロットはこのデータを用いて作成しています。残差の平方和が分散分析表の誤差変動の偏差平方和となります。
- 標準化残差:
- 残差を誤差変動の平均平方の平方根で割った値。誤差変動には外れ値の残差も含まれているため外れ値の影響で標準化残差が小さくなるので、外れ値の検出には向いていない。標準残差や内的にスチュデント化された残差とも言う。
- スチューデント化残差:
- 絶対値が2より大きいケースを外れ値とする場合がある。外的にスチュデント化された残差とも言う。
- Cookの距離:
- Cookの距離が大きいとき、そのケースは結果に大きな影響を与えていることを示す。外れ値を検出する基準として、1や4/サンプルサイズなどが提案されている。
- てこ比:
- 0以上1以下の値をとり、てこ比の平均値は(説明変数の数 + 定数項の数)/サンプルサイズに等しい。外れ値を検出する基準として、てこ比の平均値の2倍や0.5などが提案されている。
不均一分散の検定
重回帰分析では、すべての誤差項の分散が等しいことを仮定しています。Breusch-Paganの方法とWhiteの方法により不均一分散の検定を行った結果が出力されます。帰無仮説は「全ての誤差項の分散は等しい」、対立仮説は「少なくとも1つは分散の異なる誤差項がある」です。
有意水準を5%とすると、いずれの方法でも帰無仮説は棄却されません。
※ 掲載している画像は、エクセル統計による出力後に一部書式設定を行ったものです。
ダウンロード
この解析事例のExcel ファイルのダウンロードはこちらから → example_6.xlsx
このファイルは、エクセル統計の体験版に対応しています。
参考書籍
- 田中 豊, 垂水 共之, 脇本 和昌, "パソコン統計解析ハンドブック 2 多変量解析編", 共立出版, 1984.
- 柳井 晴夫, 高木 広文, "多変量解析ハンドブック", 現代数学社, 1986.
- Thomas H. Wonnacott, "回帰分析とその応用", 現代数学社, 1998.
- 芳賀 敏郎, 橋本 茂司, "回帰分析と主成分分析", 日科技連出版社, 1980.