BellCurve 統計WEB

ブログ

Zipfの法則

2017/08/15

カテゴリ:

※コラム「統計備忘録」の記事一覧はこちら


Zipf はジップ、または、ジフと読みます。アメリカの言語学者のジョージ・キングズリー・ジフが発見した経験則です。サイズの大きさで順位(k)を付けた場合、k番目のサイズは、1番目のサイズの 1/k になるというものです。ウィキペディアにもう少し詳しい説明があります。

さて、私自身は、那須川哲哉氏の「テキストマイニングを使う技術/作る技術」を読むまでこの法則を知らなかったのですが、那須川氏によるとテキストマイニングの過程で形態素解析を行うと、対象テキストにおける語の出現頻度が法則に従うとのことでした。そこで、手持ちのアンケートの自由回答をトレンドサーチにかけて調べてみたら、かなり法則に近い分布になるものがありました。それ以来、つい、数字が並んでいるのを見ると、法則があてはまるかどうか気になってしまいます。

気にしていると色々とみつかるのですが、最もよくあてはまった例を1つ紹介します。それは、検索サイトから、当サイト( https://bellcurve.jp/ )のホームページへアクセスする際に用いられた、検索キーワードの頻度です。

最近1ヶ月の検索キーワード
順位 キーワード 頻度
1位 エクセル 6,415
2位 統計 3,355
3位 正規分布 1,928
10位 アンケート 772
100位 SD 60
1000位 30年前 5
 

2位の「統計」を1位の「エクセル」の頻度で割ると0.53、3位の「正規分布」は0.30、100位の「SD」で0.01と、法則の 1/k に近い値です。ちなみに、法則から予想される出現回数と実際の出現回数との相関係数は0.998と非常に強い相関を示しました。ページ単位に調べてみるとかなりばらつきがあるので、法則があてはまるにはページ数や文書量がある程度必要なのかもしれません。

ジップの法則以外にも、パレートの法則や、80:20の法則などが知られています。皆さんも、身近な数字にあてはめてみてはどうでしょうか。


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)