クラスター分析 : Cluster Analysis
概要
得られたデータをいくつかのグループに分類することを目的とする手法です。階層的方法と非階層的方法とに分けられます。本製品では、凝集法による階層型のクラスター分析とk-means法による非階層型のクラスター分析を行うことができます。
階層型 - 凝集法
凝集法による階層型のクラスター分析では次のステップを踏んで計算します(個体分類の場合)。
- n個の個体について、複数の変数から個体間の距離(非類似度行列)を計算します。第1のステップでは、1つのクラスターが1つの個体によって形成されるn個のクラスターが存在します。
- 非類似度行列の中から、もっとも類似性の高い2つのクラスターを合併して、1つのクラスターを作ります。
- 合併後のクラスターと他のクラスターとの距離を計算し、非類似度行列を更新します。
- ステップ2からステップ3を繰り返し、クラスターの数が1つになれば計算を終了します。
合併後の距離計算の方法には、次の6つの方法があります。
- 最短距離法(nearest neighbor method)
- 最長距離法(furthest neighbor method)
- メディアン法(median method)
- 重心法(centroid method)
- 群平均法(group average method)
- ウォード法(Ward method)
非階層型 - k-means法
あらかじめいくつのクラスターに分類するかを指定し、クラスター内では分散が小さく、クラスター間では分散が大きくなるように各ケースをクラスターに振り分けていきます。k-means法のkはクラスターの個数を意味します。サンプルサイズの大きなデータを分類するときによく利用されます。
分析例ファイルのダウンロード
クラスター分析を使用する際のデータの形式やダイアログの指定方法、出力結果などを以下のExcelファイルからご確認いただけます。ダウンロードしてご参照ください。この分析例ファイルは、製品をご購入された場合にも自動でインストールされます。
なお、エクセル統計の無料体験版では、分析例ファイルのデータを実際に分析してみることができます。
処理対象データ
データベース形式 階層型 - 凝集法
クラスタリング手法 | 行数 | 列数 | クラスターの個数 | |
---|---|---|---|---|
個体分類 | データラベル | 3~250行 | 1列 | - |
分析に用いる変数 | 3~250行 | 2~50列 | 有効ケースの件数未満 | |
変数分類※1 | 分析に用いる変数 | 3~60,000行 | 2~250列 | 有効ケースの件数未満 |
※1:変数分類では、データラベルの情報を分析には用いません
データベース形式 非階層型 - k-means法
行数 | 列数 | クラスターの個数 | |
---|---|---|---|
データラベル | 3~60,000行 | 1列 | - |
分析に用いる変数 | 3~60,000行 | 2~100列 | 有効ケースの件数未満※2 |
※2:100個以下であること
処理対象データ | ||
---|---|---|
数値 | 文字列 | 空白 |
○ | 欠 | 欠 |
※:○…処理可、×…処理不可、欠…欠損値として除く
出力内容
ケースの要約 | 有効ケース、不明ケース、全体の「サンプルサイズ」と「割合」 |
---|---|
基本統計量 | 各変数の「サンプルサイズ」、「平均」、「不偏分散」、「標準偏差」、「最小値」、「最大値」 |
相関行列 | 各変数間の相関係数の行列 |
階層型 - 凝集法
設定内容 | ダイアログに設定した「データの内容」、「距離計算」、「合併後の距離計算」の内容 |
---|---|
距離行列 | 合併前の各個体間または各変数間の距離の行列 |
結合過程 | 各ステップにおける合併した2つのクラスターの合併後の距離、各個体または各変数の合併後のクラスター番号、合併した2つの各クラスター内で最も若い個体または変数の番号が出力されます。 |
規模・平均値表※1 | 指定したクラスター数に基づいた各クラスターの規模(個体数または変数の数)と各変数の平均値※1 |
クラスター別個体分類※1 | 指定したクラスター数に基づいた各クラスターに所属する個体名 |
クラスター別変数分類※2 | 指定したクラスター数に基づいた各クラスターに所属する変数名 |
【グラフ】樹形図 | クラスターの結合過程を表した図です。デンドログラムとも呼ばれます。破線は、結合過程の中でクラスター数が指定したクラスター数になった時点を指しています。Excel のグラフ(散布図)を利用して作成しています。 |
樹形図用データ | 樹形図作成用のデータ |
※1:「データ内容」で[個体分類]をチェックした場合に出力されます。
※2:「データ内容」で[変数分類]をチェックした場合に出力されます。
非階層型 - k-means法
クラスターの中心の初期値 | 各クラスターの中心の初期値です。観測値のケースの値を用いています。 |
---|---|
クラスターの中心の変化 | 反復推定の過程におけるクラスターの中心の位置が変化した距離が出力されます。0の場合、中心の位置が変わらなかったことを示します。中心の変化がすべてのクラスターで0となるまで反復推定を行います。 |
クラスターの中心の最終結果 | 反復推定の最終結果としてのクラスターの中心の値 |
【グラフ】クラスターの中心 | クラスターの中心の最終結果を各クラスターごとに縦方向の折れ線で示したグラフ |
クラスターの中心間の距離 | 各クラスター間の距離 |
分散分析表 | 各変数でクラスターを水準として一元配置分散分析を行った結果 |
各クラスターのケース数 | 各クラスターに分類されたケースの「サンプルサイズ」と「割合」 |
所属クラスター | 観測値の各ケースの「所属クラスター」と各「クラスターの中心との距離」 |
クラスター別個体分類 | 指定したクラスター数に基づいた各クラスターに所属する個体名 |
参考文献
- 河口 至商, "多変量解析入門Ⅱ", 森北出版株式会社, 1978
- 木下 栄蔵, "わかりやすい数学モデルによる多変量解析入門", 啓学出版, 1987