「テキストマイニング」とは？知っていると理解がすすむ目的別３つのポイント

2017.01.162020.03.05

ブログやＳＮＳの普及で、インターネット上には膨大な文章や文字列が日々投稿されています。

ビジネスデータもどんどん電子化がすすみ、それらのデータから役立つ知見を見出せば、ビジネスに貢献できるはずです。

そこで今回は、文章を分析する手法である「テキストマイニング」について、猫でもわかる、３つのポイントでまとめてみました。

本記事の概要

「テキストマイニング」とは？

テキストマイニングを理解するには、まずは、テキストとマイニングの意味を考えてみます。

「テキスト」は、もともと英語の”text”がカタカナとなって日本語に定着したものです。なので、テキストとは、文章や文字列のかたまりを表現しています。

「マイニング」は、英語の”mining”からきていて、もともと採掘するという意味の単語です。そこから派生して、マイニングとは、知識や特徴などを発見することを指しています。

なので、「テキストマイニング」とは、文章などのテキスト集合から、その特徴や新しい知識を発見することをいいます。

「テキストマイニング」の３つの考え方

テキストマイニングは、膨大な文書の中から役に立つ知見を見つけ出す方法ですが、もう少し詳しくみてみると、３つの考え方があります。これらを区別しながら学ぶことで、テキストマイニングの情報を系統的に理解することが可能です。

１、文書の情報を整理して、必要な部分を見つけ出す

Google検索を例に考えてみます。

Google検索では、検索窓に単語を入力して検索すると、たくさんの文書のリスト（URL）が表示されます。

このときGoogleさんは、わたしたちが与えた単語を含むようなテキストを、膨大な文書の中から見つけ出して、（順位をつけて）表示しています。

これは膨大な文書の中から「必要な部分を含むものを見つけ出す」という使い方で、これが１つ目のテキストマイニングの考え方になります。「情報検索」のためのテキストマイニングです。

この場合は、文書１つ１つにそれぞれ処理をしていくことで実現できるという特徴があります。

２、文書の情報を整理・分析することで解釈し、役に立つ知見を見出す

2つ目のテキストマイニングは、こんな使い方をします。たとえば、ある製品１と製品２の値段や性能、評判を比較して、どちらを買うほうがお得か？といった疑問を解消するような使い方です。

これに答えるためには、製品１と製品２の文書をそれぞれ「分析し、両方を比較し、解釈する」ことで最終的な知見を得ています。

２つ目のテキストマイニングの使い方は、たとえば、文書１と文書２に含まれる「内容を比較することで、役に立つ知見を見出す」というようなものです。

１つの文書内で処理が完結する１つ目の考え方とは違い、文書間での情報の関係も考えて知見を見出しています。

３、文書全体を統計的に分析し、新らしい知見を発見する

３つめのテキストマイニングでは、文書全体を１つとして扱う考え方にもとづきます。

この考え方では、大量の文書全体を１つとみなし、統計的な分析を行います。

統計分析の手法にもよって、

その文書集合の中にこんな特徴的なパターンがあるよ
この文章全体は５つのトピックに分類できるよ

などの、「文章全体の特徴やパターンを発見」することができます。

この場合に得られる知見は、文書の中に直接的に書かれているような内容でなく、

全体を統計的に解析したことで新たに発見できたものになります。

この点が１つ目や２つ目の考え方と大きく違います。

テキストマイニングと使われたときには、この３番目の考え方で使われていることが多いかと思います。

まとめ

今回は、「テキストマイニング」とはなにか？ということや、テキストマイニングには３つの考え方があることを書きました。

テキストマイニングを漠然とは知っていた方も、３つの考え方に注意することで、テキストマイニングの情報を、より正確に系統的に整理しながら理解できるようになるのではないでしょうか。

特に３つ目の考え方は、文書が増えれば増えるほど新しい知見が得られやすくなります。

なので、ビッグデータと呼ばれるような現代にはとても相性のよい方法になっています。

そのほかに、こちらの記事もございます↓

『「テキストマイニング」の記事のまとめはこちらです』
『「多変量解析」の記事のまとめはこちらです』

このほかに、テキストマイニングには、こちらの書籍もおすすめです。↓

Ｒによるテキストマイニングのわかりやすい入門書です。↓

Amazonで「Rによるテキストマイニング入門」に関する詳細を見る

Amazonで探す

楽天で探す

Ｒによるテキストマイニングでは、こちらの本もございます。↓

Amazonで「Rによるやさしいテキストマイニング」に関する詳細を見る

Amazonで探す

楽天で探す

テキストマイニングのビジネス事例も豊富に載っています。↓

Amazonで「ビッグデータを活かす技術戦略としてのテキストマイニング」に関する詳細を見る

Amazonで探す

楽天で探す

自然言語処理の全体像がサクッと理解できる１冊です。↓

Amazonで「自然言語処理の基本と技術」に関する詳細を見る

Amazonで探す

楽天で探す

言語研究で統計を使いたい方にはこちらもございます。↓

Amazonで「言語研究のための統計入門」に関する詳細を見る

Amazonで探す

楽天で探す

言語に関して機械学習をやりたいあなたにはこちらがおすすめです。↓

Amazonで「言語処理のための機械学習入門 (自然言語処理シリーズ)」に関する詳細を見る

Amazonで探す

楽天で探す