ロジスティック回帰分析(4)─ダミー変数
2017/08/14
カテゴリ:コラム「統計備忘録」
タグ:ロジスティック回帰分析, 統計備忘録
※コラム「統計備忘録」の記事一覧はこちら※
ロジスティック回帰分析を進めようとする場合、「合格/不合格」、「成功/失敗」というような名義尺度の変数はダミー変数(dummy variable)に変換する必要があります。ダミー変数は「1か0(ゼロ)」の2つの値しかとりません。「1」は「○○である」、「0」は「○○でない」ということを表します。「○○」を「合格」とすれば「1=合格/0=不合格」、「不合格」とすれば「1=不合格/0=合格」ということになります。数学的には「1」は「0」よりも大きな値ですが、「合格」と「不合格」の間に大小関係はありませんから、どちらを「1」にするかは分析者の自由です。もともと量的な意味の無い変数に見せかけの量を持たせることからダミー変数と呼びます。
「合格/不合格」というような2つのカテゴリーしか持たない変数であれば1個のダミー変数で表現できます。それでは、カテゴリー数が3つ以上になったらどうしたらよいのでしょうか。その場合は「カテゴリー数-1」のダミー変数を作ります。例えば、A、B、C、3つのカテゴリーがあれば、「Aならば1」とする変数A、「Bならば1」とする変数Bの2つのダミー変数を作ってしまえば、変数A、変数Bが共に「0」のケースはCのカテゴリーに属すということになります。
さて、左の表は前回の記事に掲載した統計学のテストのデータについて、統計WEBの閲覧経験と試験結果の列をダミー変数に変換したものです。
このデータから、まず試験結果(Y)の合計を求めてみます。これをNで割ってYの平均(E)を計算します。
つまり、試験結果(Y)の平均(E)は、合格者の比率(P)ということになります。
次に、Yの分散(V)を求めてみますと、結果はP(1-P)になります(ExcelのVARP関数の結果と比べてください)。式の展開は省略しますが、分子の式の展開については、Yが1のケースと、0のケースに分けて考えてみてください。
これにより、ダミー変数の分散はPが0.5(確率が50%)のとき、最大(0.25)になることが分かります。
エクセル統計でロジスティック回帰分析を行うと、最初に各変数の平均と分散が出力されます。値の意味するところはこの通りです。