BellCurve 統計WEB

ブログ

ぼくはうなぎだ―テキストマイニング

2017/08/14

カテゴリ:

※コラム「統計備忘録」の記事一覧はこちら


テキストマイニングの本を読んでいたら、「うなぎ文」なるものと出会いました。うなぎ文の代表例がタイトルの「ぼくはうなぎだ」です。

うなぎ文は、「何を注文する?」、「君の好物は?」と、何を受けての発言かが分かれば解釈できるのですが、単独ではまったく意味が通じません。翻訳ソフトを使って英訳したら「I am an eel」と誤訳されることになります。

そこで、トレンドサーチがうなぎ文をどう処理するのか試してみると、次のように「うなぎ」だけが出てきました。「私はうなぎです」を試してみても結果は同じです。

多くのテキストマイニング・ツールは最初に形態素解析という作業を行います。形態素解析は、文法と辞書を利用して、文章を意味のある最小単位に分割して品詞を判別することです。トレンドサーチも次のように解析しているはずです。

「ぼく は うなぎ だ」
「私 は うなぎ です」

そこで、トレンドサーチが基本設定では代名詞や助詞、助動詞を表示しなかったのを思い出し、すべての品詞を表示するようにしたら、つぎのようになりました。

トレンドサーチの形態素解析では、「ぼく」、「僕」、「ボク」は、すべて代名詞の「ボク」として解析します。また、「です」は「だ」の丁寧表現ですが、こういった動詞や助動詞の活用による表現の揺らぎにも対応しています。

さて、うなぎ文は、人間が読んでも文脈が分からなければ理解できません。当然、コンピューターにも理解不能です。したがって、テキストマイニング・ツールを使う場合は、「注文」とか「好物」というような文脈が分かるキーワードをテキストに追加して分析するか、「好物」について書かれた文章というように、テーマにより分析対象を絞り込んでおく必要があります。


統計学やデータ分析を学ぶなら、大人のための統計教室 和(なごみ) [業務提携]


【BellCurve監修】統計検定®2級対策に最適な模擬問題集1~3を各500円(税込)にて販売中!

Kindleストアで配信中

統計検定®2級 模擬問題集1

500円(税込)

統計検定®2級 模擬問題集2

500円(税込)

統計検定®2級 模擬問題集3

500円(税込)