【エクセル統計/新規ユーザー】春の年度末SALE!

【エクセル統計/新規ユーザー】春の年度末SALE!

エクセル統計 搭載機能

クラスター分析 : Cluster Analysis

概要

得られたデータをいくつかのグループに分類することを目的とする手法です。階層的方法と非階層的方法とに分けられます。本製品では、凝集法による階層型のクラスター分析とk-means法による非階層型のクラスター分析を行うことができます。

階層型 - 凝集法

凝集法による階層型のクラスター分析では次のステップを踏んで計算します(個体分類の場合)。

  1. n個の個体について、複数の変数から個体間の距離(非類似度行列)を計算します。第1のステップでは、1つのクラスターが1つの個体によって形成されるn個のクラスターが存在します。
  2. 非類似度行列の中から、もっとも類似性の高い2つのクラスターを合併して、1つのクラスターを作ります。
  3. 合併後のクラスターと他のクラスターとの距離を計算し、非類似度行列を更新します。
  4. ステップ2からステップ3を繰り返し、クラスターの数が1つになれば計算を終了します。

合併後の距離計算の方法には、次の6つの方法があります。

  • 最短距離法(nearest neighbor method)
  • 最長距離法(furthest neighbor method)
  • メディアン法(median method)
  • 重心法(centroid method)
  • 群平均法(group average method)
  • ウォード法(Ward method)

非階層型 - k-means法

あらかじめいくつのクラスターに分類するかを指定し、クラスター内では分散が小さく、クラスター間では分散が大きくなるように各ケースをクラスターに振り分けていきます。k-means法のkはクラスターの個数を意味します。サンプルサイズの大きなデータを分類するときによく利用されます。

分析例ファイルのダウンロード

クラスター分析を使用する際のデータの形式やダイアログの指定方法、出力結果などを以下のExcelファイルからご確認いただけます。ダウンロードしてご参照ください。この分析例ファイルは、製品をご購入された場合にも自動でインストールされます。

 ex_09_Multivariate.xlsx

なお、エクセル統計の無料体験版では、分析例ファイルのデータを実際に分析してみることができます。

 無料体験版ダウンロード

処理対象データ

データベース形式 階層型 - 凝集法

クラスタリング手法 行数 列数 クラスターの個数
個体分類 データラベル 3~250行 1列
分析に用いる変数 3~250行 2~50列 有効ケースの件数未満
変数分類※1 分析に用いる変数 3~60,000行 2~250列 有効ケースの件数未満

※1:変数分類では、データラベルの情報を分析には用いません

データベース形式 非階層型 - k-means法

行数 列数 クラスターの個数
データラベル 3~60,000行 1列
分析に用いる変数 3~60,000行 2~100列 有効ケースの件数未満※2

※2:100個以下であること

処理対象データ
数値文字列空白

※:…処理可、×…処理不可、…欠損値として除く

出力内容

ケースの要約 有効ケース、不明ケース、全体の「サンプルサイズ」と「割合」
基本統計量 各変数の「サンプルサイズ」、「平均」、「不偏分散」、「標準偏差」、「最小値」、「最大値」
相関行列 各変数間の相関係数の行列
階層型 - 凝集法
設定内容 ダイアログに設定した「データの内容」、「距離計算」、「合併後の距離計算」の内容
距離行列 合併前の各個体間または各変数間の距離の行列
結合過程 各ステップにおける合併した2つのクラスターの合併後の距離、各個体または各変数の合併後のクラスター番号、合併した2つの各クラスター内で最も若い個体または変数の番号が出力されます。
規模・平均値表※1 指定したクラスター数に基づいた各クラスターの規模(個体数または変数の数)と各変数の平均値※1
クラスター別個体分類※1 指定したクラスター数に基づいた各クラスターに所属する個体名
クラスター別変数分類※2 指定したクラスター数に基づいた各クラスターに所属する変数名
【グラフ】樹形図 クラスターの結合過程を表した図です。デンドログラムとも呼ばれます。破線は、結合過程の中でクラスター数が指定したクラスター数になった時点を指しています。Excel のグラフ(散布図)を利用して作成しています。
樹形図用データ 樹形図作成用のデータ

※1:「データ内容」で[個体分類]をチェックした場合に出力されます。

※2:「データ内容」で[変数分類]をチェックした場合に出力されます。

クラスター分析 | 凝集法 | 樹形図(横) クラスター分析 | 凝集法 | 樹形図(縦)
非階層型 - k-means法
クラスターの中心の初期値 各クラスターの中心の初期値です。観測値のケースの値を用いています。
クラスターの中心の変化 反復推定の過程におけるクラスターの中心の位置が変化した距離が出力されます。0の場合、中心の位置が変わらなかったことを示します。中心の変化がすべてのクラスターで0となるまで反復推定を行います。
クラスターの中心の最終結果 反復推定の最終結果としてのクラスターの中心の値
【グラフ】クラスターの中心 クラスターの中心の最終結果を各クラスターごとに縦方向の折れ線で示したグラフ
クラスターの中心間の距離 各クラスター間の距離
分散分析表 各変数でクラスターを水準として一元配置分散分析を行った結果
各クラスターのケース数 各クラスターに分類されたケースの「サンプルサイズ」と「割合」
所属クラスター 観測値の各ケースの「所属クラスター」と各「クラスターの中心との距離」
クラスター別個体分類 指定したクラスター数に基づいた各クラスターに所属する個体名
クラスター分析 | k-means法 | クラスターの中心

参考文献

エクセル統計を使えば、Excelのデータをそのまま簡単に統計解析できます。


多変量解析 その他の手法

搭載機能一覧に戻る