BellCurve 統計WEB

社会人のためのデータ分析講座。Aidemy Premium
  • Step2. 中級編
  • 7. 多変量解析

7-3. ロジスティック回帰分析3


7-2章で得られたロジスティック回帰分析の結果をもう少し詳しく見てみます。

■予測値

推定された偏回帰係数を用いると、ある条件における事象の発生確率を予測することができます。7-1章で学んだように、Y=1 の発生確率 P=p(Y=1) の予測値 \hat{P} は算出した最尤推定量を用いて次のように計算できます。

 \displaystyle \hat{P} = \frac{1}{1+e^{-(5.0 + 2.9x_1 - 0.2x_2 - 2.5x_3)}}

例えば「男性(x_1=0)・気温20℃(x_2=20)・午前中(x_3=0)」の場合、この式から飲料Aを購入する予測確率 \hat{P} を計算すると

 \displaystyle \hat{P} = \frac{1}{1+e^{-(5.0 + 2.9 \times 0 - 0.2 \times 20 - 2.5 \times 0)}} = 0.73

となります。

■モデルの適合度

データに対してロジスティック回帰分析によるモデル式が適合しているかどうかを確認する方法の1つに、「逸脱度(deviance)」を調べる方法があります。逸脱度は「-2×(対数尤度)」で定義されるものであり、逸脱度が大きいほど「あてはまりの悪いモデル」であることを意味します。説明変数が増えるほど、逸脱度は小さくなります。

目的変数が0と1からなる2値のデータ、あるいは0から1までの値からなる確率などのデータに対してロジスティック回帰分析を行った場合の逸脱度は次の式から計算できます。

 \displaystyle D = -2\sum_{i=1}^n \left\{Y_i log\hat{P}_i + (1-Y_i)log(1-\hat{P}_i) \right\}

\hat{P}_i は0/1からなる2値データ YY=1となる確率 P=p(Y=1) の予測値を、n は説明変数の数を表します。統計ソフトRによる解析結果の「Null deviance」は説明変数を1つも用いない場合のモデル(最も当てはまりの悪いモデル)の逸脱度を、「Residual deviance」はすべての説明変数を用いた場合のモデル(最も当てはまりの良いモデル)の逸脱度になります。

この逸脱度を使うことで、説明変数がモデルにとって有意であるか(意味があるか)を調べることができます。推定されたモデルから説明変数を1つ除くと、モデルの当てはまりが悪くなるため逸脱度が増加します。このときの逸脱度が有意に増加していれば、除いた説明変数はモデルにとって意味があると判断できます。次に示すのは統計ソフトRによる逸脱度の検定(尤度比検定)の結果です。



「LR(Likelihood Ratio)Chisq」は「その説明変数を含む場合の尤度」の「その説明変数を含まない場合の尤度」の比(尤度比)を表しています。この尤度比を用いてカイ二乗検定を行います。このモデルの検定結果を見ると、「Gender(性別)」と「Time(購入時間)」は有意な説明変数であるということが分かります。


モデルの適合度を調べる別の方法が「ホスマー=レメショウ検定(Hosmer-Lemeshow test)」です。逸脱度は、説明変数ごとにその説明変数がモデルにとって有意かどうかを調べるために使われますが、ホスマー=レメショウ検定は推定されたモデル式全体の適合度を調べるために使われます。

ホスマー=レメショウ検定では、まずデータを k 個に分割します。この k 個のグループを用いて、次の式からカイ二乗値を求めます。

 \displaystyle \chi^2 = \sum_{i=1}^{k} \frac{(O_i - n_i \hat{\pi}_i)^2}{n_i \hat{\pi}_i(1 - \hat{\pi}_i)}

O_ii グループにおけるイベントの発生数を、n_ii グループにおけるサンプルの数を、\hat{\pi}_ii グループにおけるイベントの予測発生確率の平均値を表します。このカイ二乗値 \chi^2 が自由度 k-2 のカイ二乗分布に従うことを利用して検定を行います。

■変数選択

回帰分析を行う際に、複数の説明変数の中から効率的に目的変数を説明できる説明変数を何らかの基準に従って選択する場合があります。これを「変数選択」といいます。あまりにも多くの説明変数を使ったモデルの場合、そのデータに対しては非常に当てはまりが良いものの、別のデータでは当てはまりがあまり良くないという汎用性の低いモデルになってしまう場合があります。このような状態を「過剰適合(オーバーフィッティング)」といいます。

モデルの中から基準を満たす変数がなくなった時点で、変数選択は終了となります。変数選択には以下のような方法があります。

  • 減少法:説明変数をすべて含むモデルからスタートし、1つずつ変数を減少させていく方法
  • 増加法:説明変数を含まないモデルからスタートし、1つずつ変数を増加させていく方法
  • 減増法:説明変数をすべて含むモデルからスタートし、1つずつ変数を増加させたり減少させたりする方法
  • 増減法:説明変数を含まないモデルからスタートし、1つずつ変数を増加させたり減少させたりする方法

変数選択を行うための基準に「AIC」と「BIC」があります。AICは「赤池情報量規準」とよばれるもので、値が小さいほどあてはまりが良いモデルであると考えることができます。AICは次の式から計算することができます。

 \displaystyle AIC = -2logL + 2k

logL はモデルの対数尤度を、k は説明変数の数を表します。一方のBICは「ベイズ情報量規準」とよばれるもので、AICと同様、値が小さいほどあてはまりが良いモデルであると考えることができます。BICは次の式から計算することができます。

 \displaystyle BIC = -2logL + klog(n)

logL はモデルの対数尤度を、k は説明変数の数を、n はサンプルサイズを表します。AICとBICはどちらを使うべきであるといった決まりはありません。ただし両者は計算式が異なるため、AICによって選択されたモデルとBICによって選択されたモデルが異なる場合があります。


7. 多変量解析


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


統計WEBを運営するBellCurveは、統計解析ソフト「エクセル統計」を開発・販売しています! 統計解析ソフト「エクセル統計」をインストール後のExcel上のタブとメニュー エクセル統計ジャケット画像


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)


【PR】