- Step2. 中級編
- 7. 多変量解析
7-6. 非階層型クラスター分析
次に、非階層型(的)クラスター分析の1つであるk-means法について説明します。k-means法はサンプルサイズの大きな標本を分類するときに適した方法です。
■解析の流れ
次のようなデータを考えます。k-means法を使ってこのデータを3つのクラスターに分けてみます。
![](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2022/12/795316b92fc766b0181f6fef074f03fa.png)
- データをランダムに分類する
- クラスターごとに重心を計算する
- 各データを最も距離が近い重心のクラスターに分類し直す
- 再度、クラスターごとに重心を計算する
- 再度、各データを最も距離が近い重心のクラスターに分類し直す
- 重心の計算と、各クラスターへの分類を繰り返す
各データを3つのクラスター(赤、青、緑)にランダムに分類します。
![](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2022/12/2b530e80c7d0de90885e285c5d798063.png)
各クラスターに属するデータを使って重心(濃い赤、濃い青、濃い緑)を計算します。
![](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2022/12/c8856789ec11ab8b1013037cef6929f9.png)
ランダムにクラスターに分類されたデータを、重心までの距離が最も近いクラスターに分類し直します(=所属するクラスターを変更します)。
![](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2022/12/3a4f695a458cb0ac0aceaa2eb13ac2dd.png)
各クラスターに属するデータを使って重心(濃い赤、濃い青、濃い緑)を計算します。
![](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2022/12/94ed160662be198949535a112047e9b4.png)
ランダムにクラスターに分類されたデータを、重心までの距離が最も近いクラスターに分類し直します(=所属するクラスターを変更します)。
![](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2022/12/f96d9b4281f6d16b3c7589aed5a17be5-1.png)
「新しいクラスターに分類し直したデータを使った重心の計算」と「重心に基づく各クラスターへのデータ再分類」を繰り返し、データの動きがなくなったら計算終了です。
![](https://bellcurve.jp/statistics/wp-body/wp-content/uploads/2022/12/f4a1b0aed5dc02442c433030ff24c031.png)
■損失関数
k-means法では、 個のデータ
に対して、次の式で表される損失関数
を最小にするようにクラスタリングが行われます。
![Rendered by QuickLaTeX.com \displaystyle J = \sum^{K}_{k=1} \sum^{n}_{\boldsymbol{x_i} \in C_k} d(\boldsymbol{x_i},\ \bar{\boldsymbol{x}}_k)](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-0432d9f4a3ed2c149afe5e7f93caf173_l3.png)
ここで、 はクラスター数を、
は
番目のクラスターを表します。また、
は各クラスターに所属するデータとそのクラスターの重心との距離を表します。
最終的には、 の動きがなくなるまで計算を繰り返します。このときの値を
とすると、最も重心までの距離が近いクラスターへの再分類は次の式で表すことができます。
![Rendered by QuickLaTeX.com \displaystyle C_k = \{ \boldsymbol{x_i}\ |\ k = arg\ min_{\boldsymbol{\mu}_k} d(\boldsymbol{x_i},\ \boldsymbol{\mu}_k) \}](https://bellcurve.jp/statistics/wp-body/wp-content/ql-cache/quicklatex.com-2f1839b6f9951a87ad23ad00d4900c4d_l3.png)
■k-means法の使い方
- k-means法は階層型クラスター分析よりも計算量が少なく、サンプルサイズが比較的大きなデータを分類するのに適している
<メリット>
<デメリット>
7. 多変量解析
- 7-1. ロジスティック回帰分析1
- 7-2. ロジスティック回帰分析2
- 7-3. ロジスティック回帰分析3
- 7-4. 階層型クラスター分析1
- 7-5. 階層型クラスター分析2
- 7-6. 非階層型クラスター分析