Zipfの法則
2017/08/15
カテゴリ:コラム「統計備忘録」
タグ:統計備忘録
※コラム「統計備忘録」の記事一覧はこちら※
Zipf はジップ、または、ジフと読みます。アメリカの言語学者のジョージ・キングズリー・ジフが発見した経験則です。サイズの大きさで順位(k)を付けた場合、k番目のサイズは、1番目のサイズの 1/k になるというものです。ウィキペディアにもう少し詳しい説明があります。
さて、私自身は、那須川哲哉氏の「テキストマイニングを使う技術/作る技術」を読むまでこの法則を知らなかったのですが、那須川氏によるとテキストマイニングの過程で形態素解析を行うと、対象テキストにおける語の出現頻度が法則に従うとのことでした。そこで、手持ちのアンケートの自由回答をトレンドサーチにかけて調べてみたら、かなり法則に近い分布になるものがありました。それ以来、つい、数字が並んでいるのを見ると、法則があてはまるかどうか気になってしまいます。
気にしていると色々とみつかるのですが、最もよくあてはまった例を1つ紹介します。それは、検索サイトから、当サイト( https://bellcurve.jp/ )のホームページへアクセスする際に用いられた、検索キーワードの頻度です。
順位 | キーワード | 頻度 |
---|---|---|
1位 | エクセル | 6,415 |
2位 | 統計 | 3,355 |
3位 | 正規分布 | 1,928 |
10位 | アンケート | 772 |
100位 | SD | 60 |
1000位 | 30年前 | 5 |
2位の「統計」を1位の「エクセル」の頻度で割ると0.53、3位の「正規分布」は0.30、100位の「SD」で0.01と、法則の 1/k に近い値です。ちなみに、法則から予想される出現回数と実際の出現回数との相関係数は0.998と非常に強い相関を示しました。ページ単位に調べてみるとかなりばらつきがあるので、法則があてはまるにはページ数や文書量がある程度必要なのかもしれません。
ジップの法則以外にも、パレートの法則や、80:20の法則などが知られています。皆さんも、身近な数字にあてはめてみてはどうでしょうか。