テキストマイニング


1.テキストマイニングって何

 みなさんは「テキストマイニング」という言葉を聞いたことがあるでしょうか。1900年後半からCRMという言葉とともに「データマイニング」という分析手法がとりだたされ、データの中に埋まっている未知なるルールの発見をする画期的なアプローチとして注目されてきました。 但し、言葉の認知度ほどには具体的な出力例と活用法は理解されていないと感じます。
 こんな時に、テキストマイニング?・・・・・・なんなんだ一体?


 テキストとは、いわゆる「文字で書かれた」あるいは「文字の情報で保存されている」データのことで、実はデータの中では数値データよりも遥かに量が多いんです。営業報告にしろ伝言メモにしろ顧客氏名にしろ住所にしろ全て文字データですね。

 このようにテキスト文章で保存されている文章データを使って、さまざまな観点から分析し、役に立つ知識・情報を取り出そうという技術がテキストマイニングと言われるものです。もっと簡単に言えば、文字で書かれている文章をコンピュータで理解させて、さまざまな目的に活用しようということです。

 テキストマイニングは、その技術の利用目的によってさまざまな場面で出てくるため、「一体なんなのか?」理解しにくくなっているのですが、前述したとおり、文書データをコンピュータで理解させる(注1)技術がベースになっています。
 (注1)正確には人間が理解する程のレベルではありませんので、単語の意味、単語同士のつながり、品詞の活用などから文章の内容を分類し内容を推測させる技術と言ったほうが良いかもしれません。

 それでは、ある業界でのテキストマイニング技術の使われ方を紹介しましょう。まず、下図を見てください。

 ここでは、テキストマイニング技術の3種類の使われ方を説明したものです。
 まず@を見てください。ここでは、文字データが大量に保存されているデータベースから、特定のファイルや文章を検索するシーンを想定しています。みなさんは「自然言語検索」という言葉を聞いたことがありませんか? インターネットの検索エンジンで目的のページを探すときに、and や or を単語の間に記入したり、スペースで区切ったりして情報の絞込みをしているはずですが、自然言語検索の場合は、コマンドやスペースを使わずにそのまま文章を記入して検索ができるのです。例えば下記のinfoseekは、自然言語対応型なので、「東京の水族館でマンボウを見たい」などと文章のまま検索できるわけです。こういった自然に書かれた言語をコンピュータで理解させ大量のデータから特定のデータを抽出する自然言語処理技術に「テキストマイニング」という流行のキーワードが使われています。これは、インターネット上のホームページを探すだけで使われるのではなく、営業日報や商談記録、問い合わせ応対記録など複数の人や組織で資産共有するための便利なツールとして機能します。つまりナレッジマネジメントですね。
 こういう点からナレッジマネジメントのセミナーや商品で「テキストマイニング」というキーワードが出現するのです。


http://www.infoseek.co.jp/Help?pg=help_command.html 検索コマンド一覧




 つづいて、Aを見てください。ここでは、なにやらメールで送られてくる文章にテキストマイニング技術が使われているようです。メールを使った問合せ受付は、米国では盛んに行われていますが(現在は積極的でない模様)、日本ではまだ盛んであるとはいえません。メールでの受付は、電話受付と違いと違って時間や営業日に制約されず、ビジートーン(話中)ではじかれることもないので、理論的には送信されたメールすべてを受信することになります。メールによる問合せで済む内容であれば利用者としては便利で、気兼ねも無く非常によいのですが、受信する側は電話受付よりもはるかに稼動がかかってしまうため、少しでも作業の軽減をはかりたいものです。しかも通常、問合せのほとんどは同じような内容が多く含まれるため、1通1通手書きで対応するよりも事前に用意したテンプレートを使って処理をする方が良いのですが、ここでは更に、メールに書かれている質問内容をコンピュータで理解・分類させ自動的にあるいは半自動的に返信文を作成してしまおう!という技術です。ここでもまた自然言語処理技術という言葉よりも「テキストマイニング」というキーワードがよく出現します。
 米国でこの技術を使った商品で成功した企業にKana(カナ)というものがあります。確かAmazon社でも使っているはずです。
http://www.kana.com/ (米国)
http://www.kana.com/regions/japan/index.html (日本) Kana Responseを調べてみてください

 日本の製品では、ジャストシステムのコンセプトベースや野村総合研究所のTRUE TELLER あたりが元気です。
以前、NTT−ATのMatchMail にも期待していました。


 つづいて、Bを見てください。ここでは人が電話で受けた内容を分析するのにテキストマイニングが使われているようです。これが最もテキストマイニングというキーワードが合うと私は思います(笑)。
 つまり、大量に集めたテキスト文章をテキストマイニング技術で分類・整理して、その中に潜む傾向やルールを見つけ出すというものです。これはデータマイニングとイメージが合いますね。
 ここでいうテキストマイニングとはどんな処理が行われているのかというと、文章の中に記録されている単語の頻出傾向を調べることから始まり、単語同士の相関関係を調べたり、文章のクラスタリング処理(グルーピング)を施したりします。また、文章とある結果(買った・買わなかった とか 満足・不満足など・・・)がどのように関連しているかなど人間では判断不可能な傾向を導くのです。
 このような処理は人間でもできるのでは?と思う方もいると思いますが、問題はそのデータのボリュームであり私の経験則からすると、人間で処理できるのは1000レコード1週間です(同僚がが目まいを起こして倒れました(笑))。テキスト文章の場合、大まかな分類をするにしても、人によって解釈の相違が発生するため共同作業が難しいので特に厄介なのです。

 次回以降は特にBで説明したテキストマイニングを中心に、説明をしていきたいと思います。

Kihachi