- Step2. 中級編
- 7. 多変量解析
7-2. ロジスティック回帰分析2
例題:
次のデータは、あるお店に来た客30人について飲料Aを購入したかどうかを集計した結果です。「購入有無」に加え、調査日の「気温」、購入者の「性別」、購入した「時間帯」についても調べました。このデータから、飲料Aの購入確率を予測するロジスティックモデルを作成してください。
No | 購入有無 | 性別 | 気温(℃) | 購入時間 |
---|---|---|---|---|
1 | 購入した | 女性 | 16 | 午前中 |
2 | 購入した | 女性 | 22 | 午前中 |
3 | 購入した | 男性 | 21 | 午前中 |
4 | 購入した | 女性 | 16 | 午前中 |
5 | 購入した | 女性 | 19 | 午前中 |
6 | 購入した | 女性 | 15 | 午前中 |
7 | 購入した | 男性 | 20 | 午後 |
8 | 購入した | 女性 | 15 | 午前中 |
9 | 購入した | 女性 | 21 | 午後 |
10 | 購入した | 女性 | 17 | 午前中 |
11 | 購入した | 女性 | 19 | 午前中 |
12 | 購入した | 女性 | 20 | 午後 |
13 | 購入した | 男性 | 22 | 午前中 |
14 | 購入した | 女性 | 18 | 午後 |
15 | 購入した | 男性 | 22 | 午前中 |
16 | 購入した | 女性 | 23 | 午前中 |
17 | 購入した | 男性 | 18 | 午前中 |
18 | 購入した | 女性 | 20 | 午後 |
19 | 購入しなかった | 男性 | 22 | 午前中 |
20 | 購入しなかった | 男性 | 20 | 午後 |
21 | 購入しなかった | 男性 | 19 | 午後 |
22 | 購入しなかった | 男性 | 21 | 午前中 |
23 | 購入しなかった | 男性 | 22 | 午前中 |
24 | 購入しなかった | 女性 | 18 | 午後 |
25 | 購入しなかった | 男性 | 22 | 午後 |
26 | 購入しなかった | 男性 | 23 | 午後 |
27 | 購入しなかった | 男性 | 18 | 午後 |
28 | 購入しなかった | 女性 | 20 | 午後 |
29 | 購入しなかった | 男性 | 22 | 午前中 |
30 | 購入しなかった | 男性 | 20 | 午後 |
■データの前処理
テキストデータをすべて数値データにするため、元データを次のように変換します。
- 購入:「0」購入しなかった、「1」購入した
- 性別:「0」男性、「1」女性
- 購入時間:「0」午前中、「1」午後
変換したデータを次に示します。
No | 購入有無 | 性別 | 気温(℃) | 購入時間 |
---|---|---|---|---|
1 | 1 | 1 | 16 | 0 |
2 | 1 | 1 | 22 | 0 |
3 | 1 | 0 | 21 | 0 |
4 | 1 | 1 | 16 | 0 |
5 | 1 | 1 | 19 | 0 |
6 | 1 | 1 | 15 | 0 |
7 | 1 | 0 | 20 | 1 |
8 | 1 | 1 | 15 | 0 |
9 | 1 | 1 | 21 | 1 |
10 | 1 | 1 | 17 | 0 |
11 | 1 | 1 | 19 | 0 |
12 | 1 | 1 | 20 | 1 |
13 | 1 | 0 | 22 | 0 |
14 | 1 | 1 | 18 | 1 |
15 | 1 | 0 | 22 | 0 |
16 | 1 | 1 | 23 | 0 |
17 | 1 | 0 | 18 | 0 |
18 | 1 | 1 | 20 | 1 |
19 | 0 | 0 | 22 | 0 |
20 | 0 | 0 | 20 | 1 |
21 | 0 | 0 | 19 | 1 |
22 | 0 | 0 | 21 | 0 |
23 | 0 | 0 | 22 | 0 |
24 | 0 | 1 | 18 | 1 |
25 | 0 | 0 | 22 | 1 |
26 | 0 | 0 | 23 | 1 |
27 | 0 | 0 | 18 | 1 |
28 | 0 | 1 | 20 | 1 |
29 | 0 | 0 | 22 | 0 |
30 | 0 | 0 | 20 | 1 |
■Rによる解析結果
統計ソフトRを使ってロジスティック回帰分析を行うと、次のような結果が得られます。
![](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2022/10/795316b92fc766b0181f6fef074f03fa-4.png)
■偏回帰係数の推定値
「Coefficients」の「Estimate」が解析によって得られた偏回帰係数の推定値です。購入有無 を目的変数とし、性別(Gender)
、気温(Temperature)
、購入時間(Time)
を説明変数とすると、推定されたロジスティック回帰式を次のように書くことができます。
![Rendered by QuickLaTeX.com \displaystyle \displaystyle log \left( \frac{\hat{p}(Y=1)}{1-\hat{p}(Y=1)} \right) = 5.0 + 2.9x_1 - 0.2x_2 - 2.5x_3](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-9583e72e243b485bb56c3a4e96128eed_l3.png)
偏回帰係数が の場合は
のオッズ(あるいはロジット)を増加させるため
の発生確率を上昇させます。一方、偏回帰係数が
の場合は
のオッズ(あるいはロジット)を減少させるため
の発生確率を低下させます。
ロジスティック回帰分析の結果から次のようなことが分かります。
- 性別(Gender)の偏回帰係数(
)の検定結果はP値=0.0228となっており、性別=1(女性)では性別=0(男性)と比べて購入確率が有意に上昇することが予想されます。
- 購入時間(Time)の偏回帰係数(
)の検定結果はP値=0.0455となっており、購入時間=0(午前中)では購入時間=1(午後)と比べて購入確率が有意に上昇することが予想されます。
- 気温(Temperature)の偏回帰係数(
)の検定結果はP値=0.5171となっており、購入確率に有意な影響を与えないと予想されます。
■偏回帰係数の有意性の検定
偏回帰係数の有意性の検定とは、定数項も含めた各偏回帰係数が0であるかについての検定結果です。帰無仮説は「偏回帰係数=0」です。偏回帰係数の推定値 をその標準誤差
で割って2乗した値(
)について、自由度1のカイ二乗分布を用いて検定を行います。このような検定をWald検定といいます。
![Rendered by QuickLaTeX.com \displaystyle W^2 = \left( \frac{\widehat{\beta}_i}{se(\widehat{\beta}_i)} \right)^2 \sim \chi^2(1)](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-c234a0d772be09a1d674c28ee6adcc96_l3.png)
この検定により有意となった場合、偏回帰係数は0ではない、すなわちその説明変数の目的変数に対する影響は統計的に有意であると言うことができます。
例えば、性別(Gender)の偏回帰係数の有意性の検定では 値は次のように算出されます。ちなみに、「Coefficients」の「Std. Error」が解析によって得られた偏回帰係数の推定値の標準誤差です。
![Rendered by QuickLaTeX.com \displaystyle W^2 = \left( \frac{2.8892}{1.2687} \right)^2 = 5.19](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-5f09a17f4eab898d503f51edae4fe8eb_l3.png)
カイ二乗分布表から、 の値は「3.84」であることから、「有意水準5%において、帰無仮説は棄却され対立仮説が採択される」という結果になります。つまり、「性別(Gender)の偏回帰係数は購入確率に有意な影響を与えている」と結論づけられます。
■偏回帰係数の信頼区間
次の式から偏回帰係数の95%信頼区間を求めることができます。
![Rendered by QuickLaTeX.com \displaystyle \widehat{\beta}_i-1.96 \times se(\widehat{\beta}_i) \leq \beta_i \leq \widehat{\beta}_i+1.96 \times se(\widehat{\beta}_i)](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-7cf326ac0ed6617130be2ec1a6a76cea_l3.png)
例えば、性別(Gender)の偏回帰係数の95%信頼区間は次のように算出されます。
![Rendered by QuickLaTeX.com \displaystyle 2.8892 -1.96 \times 1.2687 \leq \beta_1 \leq 2.8892 +1.96 \times 1.2687](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-6df2f0f80ffb7485259c2dc64deffe83_l3.png)
![Rendered by QuickLaTeX.com \displaystyle 0.40 \leq \beta_1 \leq 5.38](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-47e62a4470a04e0e17a7439a8d059f09_l3.png)
このように、95%信頼区間が0をまたいでいない場合には、その偏回帰係数は有意であると判断できます。
■偏回帰係数の解釈
目的変数が0/1からなる2値データ が
となる確率を
、
個の説明変数
をそれぞれ
、偏回帰係数をそれぞれ
とすると、ロジスティック回帰モデルは次の式で表すことができます。
![Rendered by QuickLaTeX.com \displaystyle log \left( \frac{P}{1-P} \right) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-69913784351169ccf166016cd515457e_l3.png)
が1単位増加した場合に
となる確率を
とすると、ロジスティック回帰モデルは次のようになります。
![Rendered by QuickLaTeX.com \displaystyle log \left( \frac{Q}{1-Q} \right) = \beta_0 + \beta_1(x_1+1) + \beta_2x_2 + \cdots + \beta_nx_n](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-d352a10d698beef02a158d2223788cec_l3.png)
下の式から上の式を引くと、
![Rendered by QuickLaTeX.com \displaystyle log \left( \frac{Q}{1-Q} \right) - log \left( \frac{P}{1-P} \right) = log \left( \frac{Q/(1-Q)}{P/(1-P)} \right)= \beta_1](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-84eaa67a4c8dcfef09c8f85813339644_l3.png)
![Rendered by QuickLaTeX.com \Leftrightarrow \displaystyle \frac{Q/(1-Q)}{P/(1-P)} = e^{\beta_1}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-69dd36ea3d7c2559646914f91a8ca9a0_l3.png)
となります。 すなわち、 に対して自然対数を底とする指数変換を行うと、「
を1単位増加させる前」に対する「
を1単位増加させた後」のオッズ比を算出することができます。このオッズ比が1を超える場合、
のオッズを高めます。
例えば、性別(Gender)が1増加した場合(男性に対する女性)のオッズ比は次のように計算できます。
![Rendered by QuickLaTeX.com \displaystyle e^{2.9} = 18.2](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-4fd3dbd0549dd1c24a331ce50f815a51_l3.png)
この結果より、飲料Aの購入確率のオッズは18.2倍となり、男性に比べて女性の方が購入確率が高くなると予想されます。
また、次の式からオッズ比 の95%信頼区間を求めることができます。
は標準誤差を表します。
![Rendered by QuickLaTeX.com \displaystyle e^{\widehat{\beta}_i-1.96 \times se(\widehat{\beta}_i)} \leq e^{\beta_i} \leq e^{\widehat{\beta}_i+1.96 \times se(\widehat{\beta}_i)}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-67397f8063ccc98abf03aee4e40931f1_l3.png)
例えば、性別(Gender)のオッズ比の95%信頼区間は次のように算出されます。
![Rendered by QuickLaTeX.com \displaystyle e^{0.40} \leq e^{\beta_1} \leq e^{5.38}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-0d9c789173caabb6a8148f08d562a0d6_l3.png)
![Rendered by QuickLaTeX.com \displaystyle 1.49 \leq e^{\beta_1} \leq 217.02](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-7981d503ad5f46919a05d57a553a7a6b_l3.png)
このように、95%信頼区間が1をまたいでいない場合には、そのオッズ比は有意であると判断できます。
7. 多変量解析
- 7-1. ロジスティック回帰分析1
- 7-2. ロジスティック回帰分析2
- 7-3. ロジスティック回帰分析3
- 7-4. 階層型クラスター分析1
- 7-5. 階層型クラスター分析2
- 7-6. 非階層型クラスター分析