日本語の「テキストマイニング」を統計解析フリーソフト「Ｒ」でサクッ実行したいあなた、こちらはいかがでしょうか

”「源氏物語」の作者は2人いた。「静かなドン」は盗作だった。シェイクスピアはベーコンだった”（書籍紹介より引用）

などなど、興味深い話が出てきています。

このように、文章に隠れた特徴をうまく活用するのがテキストマイニングのメリットの１つです。

テキストマイニングをビジネスに活かしたい

テキストマイニングはビジネスに活かすことも可能です。

例えば、Twitterやブログのテキストデータを収集して、自社の新商品に対する評判を解析することができます。

テキストマイニングを行えば、自社商品に対して好意的な内容が書かれているのか否定的な内容が書かれているのかを（自動的に）判別して集計することができます。

人手で１つ１つやることも可能ではありますが、大量のデータをテキストマイニングで行えば、数十分でできてしまうかもしれません。

さらに、それらのデータをグループ分けしてその特徴を知ることも可能です。たとえば

ポジティブに評価したのは学生さんが多かった
ネガティブに判断したのは主婦
パッケージはポジティブに評価された
味がネガティブに評価された

などなど、より詳細に顧客の反応を調べることができるわけです。この分析をもとにして商品の改良を行ったり、次の商品開発に活かしたりすることができます。

このように、テキストマイニングは、ビジネスの場面でも活用することができます。

じゃあ実際に、どうやってテキストマイニングをすればいいんだろう？

って思われた方も多いのではないでしょうか。

テキストマイニングは、統計解析フリーソフト「Ｒ」をつかうと、手軽にサクッと実行できます

　テキストマイニングを行うには、統計解析ソフトである「Ｒ」を使うのがおすすめです。Ｒは無料で、かつ、最先端の手法もカバーしてくれる優れたソフトです。

　テキストマイニングを行うには、Ｒ単体だけでなく、追加で別のソフトをインストールして使います。形態素解析、構文解析、意味解析などは、それらは別の専門のソフトにやってもらうわけです。

でも、そんなにたくさんのソフトを使うなんてむずかしそう～

なんて思われるかもしれません。

たしかに、ソフトの使い方を覚えるだけでもそれなりに時間もかかります。

そこで本記事では、それらの情報を網羅した、Ｒだけでなく、テキストマイニングをスムーズに始めれて、サクッと実行できるための本をご紹介します。

本書では、ＲやＲ以外のテキストマイニングで使うソフトのインストールなども解説されています。

もちろん、テキストマイニングの方法を基本をシッカリ学べます。

さらに、以下の目次を見ても分かるのですが、バラエティに富んださまざまな解析例が参考にできるので、自社や自分のデータにもすぐに応用できる解析がみつかるのではないでしょうか。

本書の構成は以下の通りです

まえがき

第１章テキストマイニングとは何か

はじめに
軽量言語学
コーパス
形態素解析
構文解析
意味解析
日本語・日本文学研究におけるテキストマイニング

第２章Ｒと基本等軽量

はじめに
インストール
Ｒの基本操作
プログラミング言語としてのＲ
基本統計量

第３章Ｒによるテキストマイニング

はじめに
形態素解析済みのテキストの読み込み
RMeCabパッケージ

第４章日本語作文のテキストマイニング　

大学生が書いた作文を例に

はじめに
分析データ
独立性の検定
相関分析
まとめ

第５章　政治的談話のテキストマイニング

所信表明演説を例に

はじめに
分析データ
分割表の用意
対応分析によるクラスタリング
クラスター分析によるクラスタリング
まとめ

第６章対照言語データのテクストマイニング

ヨーロッパ１０言語の数詞を例に

はじめに
分析データ
多次元尺度法によるクラスタリング
系統樹によるクラスタリング
まとめ

第７章対話形式データのテキストマイニング

「機動戦士ガンダム」の台本を例に

はじめに
分析データ
変数
ネットワーク分析による人間関係の可視化
まとめ

第８章文学作品のテキストマイニング

芥川龍之介と太宰治を例に

はじめに
分析データ
説明変数
クラスター分析による著者推定
線形判別分析による著者推定
サポートベクターマシンによる著者推定
まとめ

第９章ジャンル別データのテキストマイニング

書き言葉均衡コーパスを例に

はじめに
分析データ
説明変数
ナイーブベイズによるジャンル判定
ｋ近傍法によるジャンル判定
バギングによるジャンル判定
まとめ

第１０章方言データのテキストマイニング

「茸」のアクセントパターンを例に

はじめに
分析データ
説明変数
決定木によるアクセントパターンの推定
ランダムフォレストによるアクセントパターンの推定
まとめ

参考文献

索引

となっています

日本語テキストマイニングをこれからやってみたいあなたに最適の本となっています。

同じ著者による、テキストマイニングの入門書です。こちらも分かりやすいです。↓

Ｒによるテキストマイニングでは、こちらの書籍もございます。↓

エクセルで、テキストマイニングをするならこちらもございます↓

こちらは、アカデミック版もございます↓

テキストマイニングのビジネス事例も豊富に載っています。↓

自然言語処理の全体像がサクッと理解できる１冊です。↓

自然言語処理の基本と技術

言語研究で統計を使いたい方にはこちらもございます。↓

言語研究のための統計入門

言語に関して機械学習をやりたいあなたにはこちらがおすすめです。↓

言語処理のための機械学習入門 (自然言語処理シリーズ)