ブログやSNSの普及で、インターネット上には膨大な文章や文字列が日々投稿されています。
ビジネスデータもどんどん電子化がすすみ、それらのデータから役立つ知見を見出せば、ビジネスに貢献できるはずです。
そこで今回は、文章を分析する手法である「テキストマイニング」について、猫でもわかる、3つのポイントでまとめてみました。
本記事の概要
「テキストマイニング」とは?
テキストマイニングを理解するには、まずは、テキストとマイニングの意味を考えてみます。
「テキスト」は、もともと英語の”text”がカタカナとなって日本語に定着したものです。なので、テキストとは、文章や文字列のかたまりを表現しています。
「マイニング」は、英語の”mining”からきていて、もともと採掘するという意味の単語です。そこから派生して、マイニングとは、知識や特徴などを発見することを指しています。
なので、「テキストマイニング」とは、文章などのテキスト集合から、その特徴や新しい知識を発見することをいいます。
「テキストマイニング」の3つの考え方
テキストマイニングは、膨大な文書の中から役に立つ知見を見つけ出す方法ですが、もう少し詳しくみてみると、3つの考え方があります。これらを区別しながら学ぶことで、テキストマイニングの情報を系統的に理解することが可能です。
1、文書の情報を整理して、必要な部分を見つけ出す
Google検索を例に考えてみます。
Google検索では、検索窓に単語を入力して検索すると、たくさんの文書のリスト(URL)が表示されます。
このときGoogleさんは、わたしたちが与えた単語を含むようなテキストを、膨大な文書の中から見つけ出して、(順位をつけて)表示しています。
これは膨大な文書の中から「必要な部分を含むものを見つけ出す」という使い方で、これが1つ目のテキストマイニングの考え方になります。「情報検索」のためのテキストマイニングです。
この場合は、文書1つ1つにそれぞれ処理をしていくことで実現できるという特徴があります。
2、文書の情報を整理・分析することで解釈し、役に立つ知見を見出す
2つ目のテキストマイニングは、こんな使い方をします。たとえば、ある製品1と製品2の値段や性能、評判を比較して、どちらを買うほうがお得か?といった疑問を解消するような使い方です。
これに答えるためには、製品1と製品2の文書をそれぞれ「分析し、両方を比較し、解釈する」ことで最終的な知見を得ています。
2つ目のテキストマイニングの使い方は、たとえば、文書1と文書2に含まれる「内容を比較することで、役に立つ知見を見出す」というようなものです。
1つの文書内で処理が完結する1つ目の考え方とは違い、文書間での情報の関係も考えて知見を見出しています。
3、文書全体を統計的に分析し、新らしい知見を発見する
3つめのテキストマイニングでは、文書全体を1つとして扱う考え方にもとづきます。
この考え方では、大量の文書全体を1つとみなし、統計的な分析を行います。
統計分析の手法にもよって、
- その文書集合の中にこんな特徴的なパターンがあるよ
- この文章全体は5つのトピックに分類できるよ
などの、「文章全体の特徴やパターンを発見」することができます。
この場合に得られる知見は、文書の中に直接的に書かれているような内容でなく、
全体を統計的に解析したことで新たに発見できたものになります。
この点が1つ目や2つ目の考え方と大きく違います。
テキストマイニングと使われたときには、この3番目の考え方で使われていることが多いかと思います。
まとめ
今回は、「テキストマイニング」とはなにか?ということや、テキストマイニングには3つの考え方があることを書きました。
テキストマイニングを漠然とは知っていた方も、3つの考え方に注意することで、テキストマイニングの情報を、より正確に系統的に整理しながら理解できるようになるのではないでしょうか。
特に3つ目の考え方は、文書が増えれば増えるほど新しい知見が得られやすくなります。
なので、ビッグデータと呼ばれるような現代にはとても相性のよい方法になっています。
- Rによるテキストマイニングのわかりやすい入門書です。↓
- Rによるテキストマイニングでは、こちらの本もございます。↓
- テキストマイニングのビジネス事例も豊富に載っています。↓
- 自然言語処理の全体像がサクッと理解できる1冊です。↓
- 言語研究で統計を使いたい方にはこちらもございます。↓
- 言語に関して機械学習をやりたいあなたにはこちらがおすすめです。↓