研究

Zipf's law in distributions of words

Zipfの法則とは,ある物の分布がベキ分布,特に指数が1のベキ分布に従うことを示す経験則です.19世紀後半以降都市人口分布などがベキ分布に従うことなどが指摘されていましたが,ハーバード大学のG. K. Zipfが書籍中の単語の出現頻度が指数のベキ分布になることを指摘して以来,他の様々なものに対しても成り立つことが発見され,そのメカニズムが研究されてきました.

右図は書籍中の単語頻度にみられる,最も有名なジップの法則の例です.縦軸は各単語の出現頻度,横軸は単語を頻度順に並べたときの順位です.上からシェークスピア戯曲集,種の起原第6版,失楽園,タイムマシーン,不思議の国のアリスにおける単語の頻度分布を表しています.英文電子書籍データは,Project Gutenbergよりダウンロードしました.

私たちは,生態学において研究されてきた,島の面積と種数の関係(種数面積関係)とベキ型の種の個体数分布との関係を調べる過程で,ベキ指数が種の多様性に関わるある関数を最大化する点に相当し,それがある種の相転移に関係することを見出しました.この結果は,単語,人工,苗字,細胞内の分子など,Zipfの法則が成り立つ例として知られる様々な分布する実体の持つ性質の詳細に全く依らない,分布関数と種数面積関係の一般的な関数関係から解析的に導かれたものです.

ベキ分布を導くメカニズムについてはたくさんの研究がありますが,なぜその指数がになることが多いのかについては一般的な研究はほとんどありません.ノーベル経済学賞受賞者にして,人工知能研究でも知られるH. Simonのモデルはその数少ないものの一つです.わたしたちは,主に単語の分布を念頭においているSimonモデルを,島の生態系などの,より一般的な群集に適用可能な形式に拡張したモデルを解析しています.




参考

  • Haruyuki Irie and Kei Tokita
    "Species-area relationship for power-law species abundance distribution"
    International Journal of Biomathematics 5 (2012) 1260024. [Preprint (q-bio.PE/0609012), Full text (DOI:10.1142/S1793524512600145)]
  • G. K. Zipf. (1949) Human Behavior and the Principle of Least Effort, Addison-Wesley
  • H. A. Simon. (1955) On a class of skew distribution functions. Biometrika, 42, pp.425-440.
  • W. Li氏のZipf's lawポータルサイト ほぼ全てのZipf則に関する論文がリストされています.
  • 時田恵一郎, 入江治行, "島の生物地理学とZipfの法則" 京都大学数理解析研究所講究録, No.1499 (2006), pp.1-6. fileTokita_Irie_RIMS2006.pdf
  • 蔵本由紀, "非線形科学", 集英社新書. 松岡正剛氏による書評

添付ファイル: fileZipf5.gplot.ai.gif 1563件 [詳細]

© Copyright 2013 Kei Tokita, Powered by Pukiwiki.  Last-modified: Thu, 30 Jul 2015 12:30:13 JST (1572d)   リロード   新規 編集 凍結 差分 添付 複製 改名   トップ 一覧 検索 最終更新 バックアップ   ヘルプ   最終更新のRSS