カテゴリカルデータのダミー変数変換と重回帰分析
2025/02/04
カテゴリ:エクセル統計
お店の来店者数や売上が、天気や曜日、イベントの有無などの数値ではない情報からどのように影響されるのか、知りたいと思ったことはありませんか? 例えば、「雨の日は来店者が少ないのでは?」「週末は売上が上がるのでは?」といった疑問をデータで検証したい場合、どのような分析をすればよいのでしょうか。
この記事では、BellCurveの統計解析ソフト「エクセル統計」を用いて、数値ではないカテゴリカル変数と目的変数の関係を分析します。
カテゴリカル変数のダミー変数への変換
値がカテゴリーやラベルで表される変数を「カテゴリカル変数」と呼びます。カテゴリカル変数の利用場面としては、例えば次の図のような「来店者数」と「天気」、「曜日」、「イベントの有無」との関係を調べる場合などがあります。
例えば、上記のようなデータで目的変数を「来店者数」、「説明変数」を「天気」、「曜日」、「イベントの有無」にして重回帰分析を行う場合、カテゴリカル変数をダミー変数に変換する必要があります。ダミー変数とは数値でないデータを、0と1を用いて数量化した変数のことです。
エクセル統計の「ユーティリティ」のダミー変数への変換を用いるとカテゴリカル変数の「天気」、「曜日」、「イベントの有無」をダミー変数に変換できます。
各カテゴリーに対応するダミー変数はそのカテゴリに属する場合に1になります。例えば、No.1のデータは「晴れ」、「土曜日」のため、「晴れ」、「土曜日」に対応するダミー変数の値が1、他のダミー変数の値は0になります。
上の図では、nカテゴリーのカテゴリカル変数がn個のダミー変数で表されています。しかし、n個のダミー変数のうち1になるのは1つだけで、他のn-1個はすべて0です。従って、n個のダミー変数のうちn-1個の値が分かると残り1つも分かるので、nカテゴリーのカテゴリカル変数はn-1個の独立なダミー変数を用いて表せます。例えば「曜日」であれば、7つのカテゴリーに対して7つのダミー変数が出力されていますが、6つのダミー変数があれば7つの曜日を表すことができます。
ダミー変数を用いた重回帰分析
エクセル統計の重回帰分析を用いて「来店者数」と「天気」、「曜日」、「イベントの有無」の関係を分析します。
説明変数に「天気」、「曜日」、「イベントの有無」を、目的変数に「来店者数」を指定します。重回帰分析のダイアログにてチェックボックス[線形結合している変数を除いて分析する]をオンにして実行すると「天気」、「曜日」、「イベントの有無」のそれぞれから1つのカテゴリが除外されます。今回の場合、「雨」「火曜日」「イベント:なし」が除外されています。
除外されたダミー変数の目的変数への寄与は0として扱われます。従って、出力されたダミー変数の偏回帰係数は、除外されたダミー変数の目的変数への寄与を0とした時の目的変数への相対的な寄与を意味します。
今回の分析では、天気が「晴れ」の偏回帰係数は61.7、「曇り」は12.1で、「雨」は除外されています。 つまり、「雨」を基準とした場合、天気が「晴れ」の時は61.7人、「曇り」の時は12.1人来客者数が多いと予測されます。
このように数値データだけでなくカテゴリカル変数も活用することで、より実用的な統計解析が可能です。エクセル統計を使い、ぜひデータ分析の幅を広げてみてください!