Step2. 中級編
7. 多変量解析

7-3. ロジスティック回帰分析3

7-2章で得られたロジスティック回帰分析の結果をもう少し詳しく見てみます。

■予測値

推定された偏回帰係数を用いると、ある条件における事象の発生確率を予測することができます。7-1章で学んだように、 $Y=1$ の発生確率 $P=p(Y=1)$ の予測値 $\hat{P}$ は算出した最尤推定量を用いて次のように計算できます。

$\displaystyle \hat{P} = \frac{1}{1+e^{-(5.0 + 2.9x_1 - 0.2x_2 - 2.5x_3)}}$

例えば「男性（ $x_1=0$ ）・気温20℃（ $x_2=20$ ）・午前中（ $x_3=0$ ）」の場合、この式から飲料Aを購入する予測確率 $\hat{P}$ を計算すると

$\displaystyle \hat{P} = \frac{1}{1+e^{-(5.0 + 2.9 \times 0 - 0.2 \times 20 - 2.5 \times 0)}} = 0.73$

となります。

■モデルの適合度

データに対してロジスティック回帰分析によるモデル式が適合しているかどうかを確認する方法の1つに、「逸脱度（deviance）」を調べる方法があります。逸脱度は「-2×（対数尤度）」で定義されるものであり、逸脱度が大きいほど「あてはまりの悪いモデル」であることを意味します。説明変数が増えるほど、逸脱度は小さくなります。

目的変数が0と1からなる2値のデータ、あるいは0から1までの値からなる確率などのデータに対してロジスティック回帰分析を行った場合の逸脱度は次の式から計算できます。

$\displaystyle D = -2\sum_{i=1}^n \left\{Y_i log\hat{P}_i + (1-Y_i)log(1-\hat{P}_i) \right\}$

$\hat{P}_i$ は0/1からなる2値データ $Y$ が $Y=1$ となる確率 $P=p(Y=1)$ の予測値を、 $n$ は説明変数の数を表します。統計ソフトRによる解析結果の「Null deviance」は説明変数を1つも用いない場合のモデル（最も当てはまりの悪いモデル）の逸脱度を、「Residual deviance」はすべての説明変数を用いた場合のモデル（最も当てはまりの良いモデル）の逸脱度になります。

この逸脱度を使うことで、説明変数がモデルにとって有意であるか（意味があるか）を調べることができます。推定されたモデルから説明変数を1つ除くと、モデルの当てはまりが悪くなるため逸脱度が増加します。このときの逸脱度が有意に増加していれば、除いた説明変数はモデルにとって意味があると判断できます。次に示すのは統計ソフトRによる逸脱度の検定（尤度比検定）の結果です。

「LR（Likelihood Ratio）Chisq」は「その説明変数を含む場合の尤度」の「その説明変数を含まない場合の尤度」の比（尤度比）を表しています。この尤度比を用いてカイ二乗検定を行います。このモデルの検定結果を見ると、「Gender（性別）」と「Time（購入時間）」は有意な説明変数であるということが分かります。

モデルの適合度を調べる別の方法が「ホスマー=レメショウ検定（Hosmer-Lemeshow test）」です。逸脱度は、説明変数ごとにその説明変数がモデルにとって有意かどうかを調べるために使われますが、ホスマー=レメショウ検定は推定されたモデル式全体の適合度を調べるために使われます。

ホスマー=レメショウ検定では、まずデータを $k$ 個に分割します。この $k$ 個のグループを用いて、次の式からカイ二乗値を求めます。

$\displaystyle \chi^2 = \sum_{i=1}^{k} \frac{(O_i - n_i \hat{\pi}_i)^2}{n_i \hat{\pi}_i(1 - \hat{\pi}_i)}$

$O_i$ は $i$ グループにおけるイベントの発生数を、 $n_i$ は $i$ グループにおけるサンプルの数を、 $\hat{\pi}_i$ は $i$ グループにおけるイベントの予測発生確率の平均値を表します。このカイ二乗値 $\chi^2$ が自由度 $k-2$ のカイ二乗分布に従うことを利用して検定を行います。

■変数選択

回帰分析を行う際に、複数の説明変数の中から効率的に目的変数を説明できる説明変数を何らかの基準に従って選択する場合があります。これを「変数選択」といいます。あまりにも多くの説明変数を使ったモデルの場合、そのデータに対しては非常に当てはまりが良いものの、別のデータでは当てはまりがあまり良くないという汎用性の低いモデルになってしまう場合があります。このような状態を「過剰適合（オーバーフィッティング）」といいます。

モデルの中から基準を満たす変数がなくなった時点で、変数選択は終了となります。変数選択には以下のような方法があります。