BellCurve 統計WEB

ブログ

欠損値が生じる理由

2017/08/15

カテゴリ:

※コラム「統計備忘録」の記事一覧はこちら


マーケティング・リサーチの世界では、今や WEB上でのアンケートがすっかり主流になってしまったので、データに欠損が生じることが少なくなりました。紙のアンケートであれば、回答者には出来の悪い質問に対し無回答で対抗するという手段がありましたが、WEB のアンケートでは本意ではない選択肢をチェックするか、ブラウザを閉じてアンケートへの協力を止めてしまうか、どちらかということになります。無回答が生じた理由を考えるというのは、アンケートを分析する上でとても大切なことです。普段、WEBアンケートしかしない方は、質問紙による調査にもチャレンジしてみてください。分析する能力、質問を作る能力を高める良い機会になります。

さて、質問紙によるアンケートでは、「質問の不備」以外にも、データに欠損が生じることがあります。「データ入力時のミス」や「回答者の不注意」によるものです。

データの入力ミスを少なくする方法としてダブルパンチ( double punch )があります。ダブルパンチとは2度データを入力することです(データ入力のことを、なぜ、punch 穴を穿つ というのかは、Wikipedia でパンチーカードタビュレーティングマシンの解説を読むと分かります)。ダブルパンチが終わったら2つの入力結果を照合します。2つの入力結果が異なればどちらかが入力ミスをしていることになりますから、そのときは質問紙の回答内容を調べて入力ミスを正します。ダブルパンチをする場合、できれば1度目と2度目で人を換えて入力します。同じ人が2度入力すると、2度目も同じようにミスをする可能性があるからです。また、入力ミスを正すことをベリファイと言います。秀吉のように、2度目の入力をする時、質問ごとに1度目に入力された値と比較し、値が違っているとその場で警告してくれるソフトもあります。手元に入力中の質問紙がありますから、どちらが正しいかすぐに確認できます。

ベリファイ後も残っている欠損値は、回答者の不注意による見落としか、回答者が意図的に回答しなかったのかどちらかということになります。一人ひとりの回答傾向をみればおおよその見当はつきますが、完全に見極めるのは不可能です。見落としがおきやすいのは、質問のレイアウトが悪かったり、同じような回答形式の質問が延々と続いていたり、特定の人にだけ答えさせるようなろ過条件付きの質問があったりするときです。質問が性別、年齢、年収など、回答者のプライバシーに関わる質問になると回答を拒否する人が出てきます。このどちらにもあてはまらない質問で欠損値が多かったとすると、質問の出来が悪かったからでしょう。回答者によるデータの欠損を少なくするには、アンケートのプリテストを行います。試作したアンケートを10人ぐらいに答えてもらい、回答後、どの質問が回答しづらかったかを確認し、本番用のアンケートを手直しすれば良いのです。

こうした手間を掛けても、なお残る欠損値に対しどう対処できるかは、次回、書きたいと思います。


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)