外れ値検定 : Test for Outliers
概要
外れ値検定とは、データから外れ値を除くための手法です。本製品では、スミルノフ=グラブス検定、トンプソンの棄却検定、増山の棄却検定、ディクソンの棄却検定を用いています。この方法では、平均値からのずれを標準偏差で割った値を元に、外れが大きいものから順に外れ値を除いていきます。1回の検定で1つの外れ値を除き、外れ値がなくなるまで検定を繰り返します。
分析例ファイルのダウンロード
外れ値検定を使用する際のデータの形式やダイアログの指定方法、出力結果などを以下のExcelファイルからご確認いただけます。ダウンロードしてご参照ください。この分析例ファイルは、製品をご購入された場合にも自動でインストールされます。
なお、エクセル統計の無料体験版では、分析例ファイルのデータを実際に分析してみることができます。
処理対象データ
「データベース形式」のデータを計算することができます。
- 先頭行を変数のラベルとして扱います。
- 2行目以降を各変数の観測値として計算に用います。
- 列ごとに欠損値を除いて計算を行います。
先頭行のラベルを除いたセル範囲について、行数と列数の上限、扱えるデータの種類は次の通りです。
データサイズ
- 行数3~60,000行
- 列数1~100列
データ内容
- 数値○:処理可
- 文字列欠損値として除く
- 空白欠損値として除く
設定項目
Excelの[エクセル統計]タブから、[基本統計・相関]→[外れ値検定]を選択すると以下のダイアログが表示されます。
- データ入力範囲 必須
- 1 列から100 列までの量的データの範囲を指定します。「空白」や「文字」のセルは除 いて計算します。
- 分析単位 必須
- 分析単位として[列ごと]と[指定範囲全体]のいずれかを選択します。
- 先頭行をラベルとして使用
- 入力範囲の先頭行が変数ラベルの場合、このチェックボックスをオンにします。初期設定はオンになっています。
- 方法 必須
- [Smirnov-Grubbs]、[Thompson]、[Masuyama]、[Dixon]のいずれかを選択します。
- Masuyama 選択時の分析方法
- 方法で[Masuyama]を選択した場合、[検定]、[棄却限界の推定]のいずれかを選択し ます。
- 検定 必須
- [両側検定]と[片側検定]のいずれかを選択します。
- 対立仮説
- 検定で[片側検定]を選択した場合、対立仮説として[最大値は外れ値]と[最小値は 外れ値]のいずれかを選択します。
- 有意水準 必須
- テキストボックスに検定の有意水準を0 より大きく0.5 より小さい範囲で設定します。 初期設定は0.05です。有意水準の値を大きくするほど外れ値が検出されやすくなります。
出力内容
データ | 「データNo.」、「元データ」、「除外済データ(元データから外れ値を除いたデータ)」、「外れ値」 | 有意水準 | ダイアログで設定した有意水準の値が出力されます。 |
---|---|
要約 | 「元データ数」、「除外済データ数」、「外れ値のデータ数」 |
検定過程 | ダイアログで選択した手法に基づく外れ値検定を、外れ値が検出されなくなるまで繰り返した結果が出力されます。「サンプルサイズ」、「平均」、「不偏分散」、「標準偏差」、「外れ値(最小値)」、「外れ値(最大値)」、「外れ値No.」、「P 値※」、「検定結果」、「対立仮説」が出力されます。 |