BellCurve 統計WEB

  • Step1. 初級編
  • 26. 相関分析

26-4. 偏相関係数

次のデータは2015年12月末時点の各都道府県内にある映画館のスクリーンの合計数と可住地面積100km^{2}当たりの薬局数を表したものです。このデータを用いて相関係数を算出すると、「0.82」でした。つまり、映画館のスクリーン数と薬局の数には強い相関があるという結果でした。

図1

出典:総務省統計局 社会生活統計指標-都道府県の指標-2015

しかし、一般的に考えて都道府県ごとの映画館のスクリーン数と可住地面積100km^{2}当たりの薬局の数は直接的に関係がないような気がします。映画館のスクリーン数が多いから薬局の出店数が増えるわけでも、薬局の数が多いから映画館のスクリーン数が増えるわけでもないためです。このような場合には、「第3の因子」の存在を考慮する必要があります。

図2

上のデータに各都道府県の人口密度のデータを加えてみます。

図3

出典:総務省統計局 社会生活統計指標-都道府県の指標-2015

人口密度と映画館のスクリーン数、及び人口密度と薬局の数の相関係数はそれぞれ「0.85」と「0.98」でした。つまり、人口密度がスクリーン数と薬局の数それぞれと強い相関を持っているため、これらの影響を除いた上で映画館のスクリーン数と薬局の数との相関関係を調べる必要があります。

図4

映画館のスクリーン数と薬局の数のような相関関係のことを「見かけ上の相関」や「疑似相関」といいます。見かけ上の相関がある場合は、相関係数ではなく第3の因子の影響を除いた相関係数である「偏相関係数」を用いて相関関係を評価します。1つ目の因子をx、2つ目の因子をy、3つ目の因子をzとおき、xとyの相関係数をr_{xy}、yとzの相関係数をr_{yz}、zとxの相関係数をr_{zx}とします。これらを用いると、zの影響を除いたxとyの偏相関係数r_{xy \cdot z}を次の式から求められます。

 \displaystyle r_{xy \cdot z}=\frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r_{xz}^{2}}\sqrt{1-r_{yz}^{2}}}

上のデータの映画館のスクリーン数、薬局の数、人口密度をそれぞれx、y、zとおくと、相関係数はそれぞれr_{xy}=0.82r_{yz}=0.98r_{zx}=0.85となるので、偏相関係数r_{xy \cdot z}は「-0.10」となります。

 \displaystyle r_{xy \cdot z}=\frac{r_{xy}-r_{xz}r_{yz}}{\sqrt{1-r_{xz}^{2}}\sqrt{1-r_{yz}^{2}}}=\frac{0.82-0.98 \times 0.85}{\sqrt{1-0.98^{2}}\sqrt{1-0.85^{2}}}=-0.13

この結果から、映画館のスクリーン数と薬局の数との相関は、実はあまり強くないことが分かります。

26. 相関分析

統計検定バナー 「統計学の時間」では、記事を最後まで読むことで、統計検定2級に合格する力が身につくことを目標としています。