7-6. 非階層型クラスター分析

次に、非階層型（的）クラスター分析の1つであるk-means法について説明します。k-means法はサンプルサイズの大きな標本を分類するときに適した方法です。

■解析の流れ

次のようなデータを考えます。k-means法を使ってこのデータを3つのクラスターに分けてみます。

各データを3つのクラスター（赤、青、緑）にランダムに分類します。

各クラスターに属するデータを使って重心（濃い赤、濃い青、濃い緑）を計算します。

ランダムにクラスターに分類されたデータを、重心までの距離が最も近いクラスターに分類し直します（＝所属するクラスターを変更します）。

各クラスターに属するデータを使って重心（濃い赤、濃い青、濃い緑）を計算します。

ランダムにクラスターに分類されたデータを、重心までの距離が最も近いクラスターに分類し直します（＝所属するクラスターを変更します）。

「新しいクラスターに分類し直したデータを使った重心の計算」と「重心に基づく各クラスターへのデータ再分類」を繰り返し、データの動きがなくなったら計算終了です。

k-means法では、 $n$ 個のデータ $\boldsymbol{x} = (\boldsymbol{x_1}, \boldsymbol{x_2}, \cdots, \boldsymbol{x_n})$ に対して、次の式で表される損失関数 $J$ を最小にするようにクラスタリングが行われます。

$\displaystyle J = \sum^{K}_{k=1} \sum^{n}_{\boldsymbol{x_i} \in C_k} d(\boldsymbol{x_i},\ \bar{\boldsymbol{x}}_k)$

ここで、 $K$ はクラスター数を、 $C_k$ は $k$ 番目のクラスターを表します。また、 $d(\boldsymbol{x_i},\ \bar{\boldsymbol{x}}_k)$ は各クラスターに所属するデータとそのクラスターの重心との距離を表します。

最終的には、 $\bar{\boldsymbol{x}}_k$ の動きがなくなるまで計算を繰り返します。このときの値を $\boldsymbol{\mu}_k$ とすると、最も重心までの距離が近いクラスターへの再分類は次の式で表すことができます。

$\displaystyle C_k = \{ \boldsymbol{x_i}\ |\ k = arg\ min_{\boldsymbol{\mu}_k} d(\boldsymbol{x_i},\ \boldsymbol{\mu}_k) \}$

＜メリット＞

＜デメリット＞