Step2. 中級編
7. 多変量解析

7-1. ロジスティック回帰分析1

ロジスティック回帰分析は、目的変数が0と1からなる2値のデータ、あるいは0から1までの値からなる確率などのデータについて、説明変数を使った式で表す方法のことです。ロジスティック回帰分析を行うと、説明変数を用いてある事象が起こる確率を予測することができます。

目的変数が0/1からなる2値データ $Y$ が $Y=1$ となる確率を $p(Y=1)$ 、 $n$ 個の説明変数 $X$ をそれぞれ $x_1,\ x_2,\ \cdots,\ x_n$ 、偏回帰係数をそれぞれ $\beta_0,\ \beta_1,\ \cdots,\ \beta_n$ とすると、ロジスティック回帰モデルは次の式で表すことができます。

$\displaystyle log \left( \frac{p(Y=1)}{1-p(Y=1)} \right) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n$

このとき、 $p(Y=1)$ を $\displaystyle log \left( \frac{p(Y=1)}{1-p(Y=1)} \right)$ に変換することで、0から1の間の値しか取らない $p(Y=1)$ を $-\infty$ から $+\infty$ までの値を取る連続データに変換することができます。

$p(Y=1) \rightarrow 0$ のとき $\displaystyle log \left( \frac{p(Y=1)}{1-p(Y=1)} \right) \rightarrow -\infty$
$p(Y=1) \rightarrow 1$ のとき $\displaystyle log \left( \frac{p(Y=1)}{1-p(Y=1)} \right) \rightarrow +\infty$

ロジット変換により目的変数が取りうる値に制約がなくなるため、線形モデルとして偏回帰係数を推定することができます。

■ロジット変換とロジスティック変換

0/1からなる2値データ $Y$ が $Y=1$ となる確率を $P=p(Y=1)$ とおいたときに、発生確率 $P$ を対数オッズに変換することを「ロジット変換」といいます。また、対数オッズのことを「ロジット（logit）」といいます。

$\displaystyle logit(P) = log \left( \frac{P}{1-P} \right)$

次に、ロジットの逆関数を計算してみます。 $y=logit(P)$ とおくと、

$\begin{eqnarray*} \displaystyle y &=& log \left( \frac{P}{1-P} \right) \\ e^{y} &=& \frac{P}{1-P} \\ e^{y}-Pe^{y} &=& P \\ P(1+e^{y}) &=& e^{y} \\ P &=& \frac{e^{y}}{1+e^{y}} = \frac{1}{1+e^{-y}} \\ \end{eqnarray*}$

となります。ロジットの逆変換を「ロジスティック変換」といいます。また、 $\displaystyle f(y) = \frac{1}{1+e^{-y}}$ で表される関数のことを「ロジスティック関数」といいます。

ロジスティック関数は「シグモイド関数」と呼ばれる場合もあります。この図から分かるように $y$ がどのような値をとっても、 $f(y)$ は0から1の間の値しか取りません。このシグモイド関数の特徴を用いて、線形モデルによる値が入力である場合に0から1の間の値として結果を出力するような回帰式を推定するのがロジスティック回帰分析です。

■ロジスティック回帰分析における偏回帰係数の推定

ロジスティック回帰分析における偏回帰係数の推定には最尤法を用います。最尤法とは、与えられた観測値から尤度を最大にするようなパラメーターを推定する方法のことで、最尤法によって推定された値を最尤推定値といいます。簡単に言うと、「いろいろなパラメーターの値を使ってある事象が起こる確率を計算してみて、一番確率が高くなったときにその値をパラメーターの推定値にする」という方法です。

2値データ $Y$ が $Y=1$ となる確率を $P=p(Y=1)$ 、 $Y=0$ となる確率を $1-P=p(Y=0)$ とします。 $n$ 個のデータからなる $Y(Y_1,\ Y_2,\ \cdots,\ Y_n)$ が互いに独立であり $p(Y_i=1)=P_i$ であるとき、尤度 $L$ は次の式から計算できます。

$\displaystyle L = \prod_{i=1}^{n} P_i^{Y_i}(1-P_i)^{1-Y_i}$

積のままだと計算がめんどくさいので、対数を取って和の形にします。これを対数尤度関数といいます。

$\begin{eqnarray*} \displaystyle log(L) &=& log \left( \prod_{i=1}^{n} P_i^{Y_i}(1-P_i)^{1-Y_i} \right) \\ &=& \sum_{i=1}^n \left\{Y_i logP_i + (1-Y_i)log(1-P_i) \right\} \end{eqnarray*}$