クラスター分析 | 統計解析ソフトエクセル統計

クラスター分析： Cluster Analysis

分析例ファイル
処理対象データ
設定項目
出力内容
参考文献

概要

得られたデータをいくつかのグループに分類することを目的とする手法です。階層的方法と非階層的方法とに分けられます。本製品では、凝集法による階層型のクラスター分析とk-means法による非階層型のクラスター分析を行うことができます。

階層型 - 凝集法

凝集法による階層型のクラスター分析では次のステップを踏んで計算します（個体分類の場合）。

n個の個体について、複数の変数から個体間の距離（非類似度行列）を計算します。第1のステップでは、1つのクラスターが1つの個体によって形成されるn個のクラスターが存在します。
非類似度行列の中から、もっとも類似性の高い2つのクラスターを合併して、1つのクラスターを作ります。
合併後のクラスターと他のクラスターとの距離を計算し、非類似度行列を更新します。
ステップ2からステップ3を繰り返し、クラスターの数が1つになれば計算を終了します。

合併後の距離計算の方法には、次の6つの方法があります。

最短距離法(nearest neighbor method)
最長距離法(furthest neighbor method)
メディアン法(median method)
重心法(centroid method)
群平均法(group average method)
ウォード法(Ward method)

非階層型 - k-means法

あらかじめいくつのクラスターに分類するかを指定し、クラスター内では分散が小さく、クラスター間では分散が大きくなるように各ケースをクラスターに振り分けていきます。k-means法のkはクラスターの個数を意味します。サンプルサイズの大きなデータを分類するときによく利用されます。

分析例ファイルのダウンロード

クラスター分析を使用する際のデータの形式やダイアログの指定方法、出力結果などを以下のExcelファイルからご確認いただけます。ダウンロードしてご参照ください。この分析例ファイルは、製品をご購入された場合にも自動でインストールされます。

ex_09_Multivariate.xlsx

なお、エクセル統計の無料体験版では、分析例ファイルのデータを実際に分析してみることができます。

無料体験版ダウンロード

処理対象データ

データベース形式階層型 - 凝集法

クラスタリング手法		行数	列数	クラスターの個数
個体分類	データラベル	3～250行	1列	－
個体分類	分析に用いる変数	3～250行	2～50列	有効ケースの件数未満
変数分類^※1	分析に用いる変数	3～60,000行	2～250列	有効ケースの件数未満

※1：変数分類では、データラベルの情報を分析には用いません

データベース形式非階層型 - k-means法

	行数	列数	クラスターの個数
データラベル	3～60,000行	1列	－
分析に用いる変数	3～60,000行	2～100列	有効ケースの件数未満^※2

※2：100個以下であること

処理対象データ
数値	文字列	空白
○	欠	欠

※：○…処理可、×…処理不可、欠…欠損値として除く

設定項目

Excelの［エクセル統計］タブから、［多変量解析］→［クラスター分析］を選択すると以下のダイアログが表示されます。

「変数」タブ

「クラスター分析」変数タブ

データ入力範囲必須: データ入力範囲の変更を行う場合、[変更]ボタンを選択します。データ入力範囲のダイアログが表示されるので、データ入力範囲を設定して [戻る] ボタンを選択します。なお、データ入力範囲の先頭行は変数名となります。
データラベル: [変数リスト] から [データラベル] の変数を設定します。
分析に用いる変数必須: [変数リスト] から [分析に用いる変数] を設定します。

「クラスタリング手法」タブ

「クラスター分析」クラスタリング手法タブ

階層型 - 凝集法

データの内容: データの内容として [個体分類] と [変数分類] のいずれかを選択します。

・個体分類の場合

距離計算: 第1ステップにおける合併前の個体間または変数間の距離行列(非類似度行列)を計算するための計算方法として、[ユークリッドの距離] と [基準化されたユークリッドの距離] のいずれかを選択します。初期設定は [ユークリッドの距離]です。

合併後の距離計算: 第3ステップにおける合併後の距離計算の方法として [最短距離法]、[最長距離法]、[メディアン法]、[重心法]、[群平均法]、[ウォード法] のいずれかを選択します。初期設定は [ウォード法]になります。

規模・平均値表のクラスター数: このテキストボックスに指定したクラスター数に基づき、各クラスターの規模(個体数または変数の数)とすべての変数についての平均値を出力します。2以上行数未満の値を指定します。初期値は4です。

・変数分類の場合

距離計算: 第1ステップにおける合併前の個体間または変数間の距離行列(非類似度行列)を計算するための計算方法です。計算方法は [√ (2-2×相関係数)] のみになります。

合併後の距離計算: 第3ステップにおける合併後の距離計算の方法として [最短距離法]、[最長距離法]、[メディアン法]、[重心法]、[群平均法]、[ウォード法]のいずれかを選択します。初期設定は [ウォード法]になります。

規模のクラスター数: このテキストボックスに指定したクラスター数に基づき、各クラスターの規模(個体数または変数の数)を出力します。2以上列数未満の値を指定します。初期値は4です。

非階層型 - k-means 法

クラスターの個数: クラスターの個数をテキストボックスに指定します。

反復回数の上限: 反復回数の上限をテキストボックスに指定します。初期値は20です。

出力内容

ケースの要約	有効ケース、不明ケース、全体の「サンプルサイズ」と「割合」
基本統計量	各変数の「サンプルサイズ」、「平均」、「不偏分散」、「標準偏差」、「最小値」、「最大値」
相関行列	各変数間の相関係数の行列

階層型 - 凝集法

設定内容	ダイアログに設定した「データの内容」、「距離計算」、「合併後の距離計算」の内容
距離行列	合併前の各個体間または各変数間の距離の行列
結合過程	各ステップにおける合併した2つのクラスターの合併後の距離、各個体または各変数の合併後のクラスター番号、合併した2つの各クラスター内で最も若い個体または変数の番号が出力されます。
規模・平均値表※1	指定したクラスター数に基づいた各クラスターの規模（個体数または変数の数）と各変数の平均値^※1
クラスター別個体分類※1	指定したクラスター数に基づいた各クラスターに所属する個体名
クラスター別変数分類※2	指定したクラスター数に基づいた各クラスターに所属する変数名
【グラフ】樹形図	クラスターの結合過程を表した図です。デンドログラムとも呼ばれます。破線は、結合過程の中でクラスター数が指定したクラスター数になった時点を指しています。Excel のグラフ（散布図）を利用して作成しています。
樹形図用データ	樹形図作成用のデータ

※1：「データ内容」で［個体分類］をチェックした場合に出力されます。

※2：「データ内容」で［変数分類］をチェックした場合に出力されます。

非階層型 - k-means法

クラスターの中心の初期値	各クラスターの中心の初期値です。観測値のケースの値を用いています。
クラスターの中心の変化	反復推定の過程におけるクラスターの中心の位置が変化した距離が出力されます。0の場合、中心の位置が変わらなかったことを示します。中心の変化がすべてのクラスターで0となるまで反復推定を行います。
クラスターの中心の最終結果	反復推定の最終結果としてのクラスターの中心の値
【グラフ】クラスターの中心	クラスターの中心の最終結果を各クラスターごとに縦方向の折れ線で示したグラフ
クラスターの中心間の距離	各クラスター間の距離
分散分析表	各変数でクラスターを水準として一元配置分散分析を行った結果
各クラスターのケース数	各クラスターに分類されたケースの「サンプルサイズ」と「割合」
所属クラスター	観測値の各ケースの「所属クラスター」と各「クラスターの中心との距離」
クラスター別個体分類	指定したクラスター数に基づいた各クラスターに所属する個体名

参考文献

河口至商, "多変量解析入門Ⅱ", 森北出版株式会社, 1978
木下栄蔵, "わかりやすい数学モデルによる多変量解析入門", 啓学出版, 1987

エクセル統計を使えば、Excelのデータをそのまま簡単に統計解析できます。

エクセル統計の購入へ

多変量解析その他の手法

→ 搭載機能一覧に戻る

エクセル統計 搭載機能

クラスター分析 ： Cluster Analysis

概要

階層型 - 凝集法

非階層型 - k-means法

分析例ファイルのダウンロード

処理対象データ

設定項目

「変数」タブ

「クラスタリング手法」タブ

出力内容

階層型 - 凝集法

非階層型 - k-means法

参考文献

多変量解析 その他の手法

エクセル統計搭載機能

クラスター分析： Cluster Analysis

多変量解析その他の手法