川底がコンクリート
2017/08/13
カテゴリ:コラム「統計備忘録」
タグ:統計備忘録
※コラム「統計備忘録」の記事一覧はこちら※
数年前の12月のこと、
「数量化2類の結果がおかしい。どうしてこんな分析結果になったのか教えてほしい」
という問い合わせを受けた。問い合わせの主は、卒論の締め切り間近の学生さんで、メールにはデータと分析結果のファイルが付いていた。
ある水棲昆虫について「環境の違いが棲息の有無にどう影響しているのか」を調べたものだ。数量化2類の結果では「川底がコンクリート」が棲息の第一条件になっていた。
この昆虫は、幼虫時代、川底の石の裏や砂利の中で過ごすし、自然の豊かさの象徴ともなっている。
データを見ても、「川底が石や砂利」で「棲息している」が69ケース、「川底がコンクリート」で「棲息している」が9ケースと圧倒的に違いがある。
なのに、「川底がコンクリート」が第一条件なのは「おかしい」というのが学生さんの主張だ。
早速、送られてきたデータをクロス集計してみると次の通り。
棲息の有無 | 川底が石や砂利 | 川底が コンクリート |
---|---|---|
棲息している | 69 | 9 |
棲息していない | 29 | 1 |
「棲息しているケース数」の違いしか見ていなくて、「棲息率」の違いを見ていないということが直ぐに分かった。このデータから判断するなら「川底がコンクリートの棲息率(90%)」が、「川底が石や砂利の棲息率(70%)」よりも高い。
また、川底の違いによる棲息率のギャップ(20%)は、川のにごり具合など他の8つの環境要因のどれよりも大きかった。数量化2類の計算が正しいことも確認した。
ユーザーサポートとしては、棲息率の違いを指摘し、数量化2類に間違いが無いことを伝えるだけで良かったのだが、ついつい余計なことまでメールに書いてしまった。
「あなたは棲息地を中心にデータを集めていませんか?」
この後のメールのやり取りについて、ここには書かない。
これは特別な例と思うかもしれないが、毎年、同じような問い合わせが何件かある。