テキストマイニングの手法とは？概要をつかみ、手法の選択ができ、自分の業務に活かしたいあなたはこちらをどうぞ

計量文献学の世界シェークスピアは誰ですか? (文春新書 406)

文藝春秋

実践・自然言語処理シリーズ2　形態素解析の理論と実装

N-gramの使い方３：文章生成

さらに、単語単位のNグラムを使うことで、文章生成に使うことができます。

既存の大量の文章を２グラムや３グラムなどに処理し、

それぞれのパターンについて出現頻度分布を作成しておきます。

その分布に従って、ランダムに次の後を選ぶことを繰り返すことで、文章の生成をすることができます。

4), 共起（コロケーション）

Nグラムでは、隣り合う文字や単語の特徴を調べる手法でした。

隣り合わないような、数語離れた単語同士にも関係性があります。

これは文中や段落中、文章中などで、

「ともに出現する頻度」

として数値化することができます。

これを「共起（コロケーション）」と言います。

共起とは、例えば、

”明日は晴れてほしいので、遠足のためにてるてる坊主を作った”

という文では、

「明日」「晴れ」「遠足」

のような単語があります。

これらのペア

（明日、晴れ）
（晴れ、遠足）
（明日、遠足）

には、何らかの意味的なつながり（関係）があると考えます。

「晴れ」の単語が多い文や文章では、晴れに関係する文脈

「遠足」の単語が多い文や文章は、遠足に関係する文脈

だとわかります。

「晴れ」と「遠足」を同時に多く含む文や文章では、

晴れと遠足が同じ文脈の中で使われている可能性が高い

と考えることができます。

つまり、明日の遠足について話をしているのだろうと考えることができます。

共起グラフ

共起の分析では、文字や単語の共起をグラフで表現することで、視覚的に理解しやすくなります。

このグラフのことを「共起グラフ」と言います。

グラフの中で、

(1), 多くの文字や単語とのつながりが多いものが「話題の中心」

(2), グラフのかたまりごとに、「話題をグループ分け」できる

といった分析をすることができます。

グラフについては以下の教科書がございます↓

牧野書店

5), 文の構造からの意味（構文解析、係り受け解析）

例えば、以下の２文をみてください。

人間は魚を食べる
魚は人間を食べる

これを単語の意味だけで分析すると、

どちらも「人間」「魚」「食べる」となり、

違いがないことになります。

しかし、私たちは主語と述語やや目的語などの係り受けの関係を知っています。

なので、これら２文の意味の違いを理解できます。

文の構造や係り受け構造から導かれる意味があるわけです。

つまり、文の意味を理解するには、

文の構造も合わせて理解することが重要になります。

これをコンピュータに行わせるのが

「構文解析」や「係り受け解析」

になります。

文の構文解析をすると、

主語が動詞と結びついて何をする
その対象物（目的語）はなんである

のように、語の役割（主語・述語・目的語など）から意味を抽出することができます。

文を構文構造を表現した構造に書き換えることができます。

書き換えたものは木構造（ツリー構造）をしていますので、「構文木」と呼ばれたりします。

文から構文木を導出する手続きを「パース、パーシング」と言います。

またこの手続きを実装したプログラムのことを「パーサー」と呼びます。

構文解析は英語では特に有効ですが、日本語の場合は少し勝手が違います。

日本語では構文構造が厳密ではないからです。

日本語の場合には、構文木を作るというよりは、語と語の係り受け関係（依存関係）で、語の役割が決まり、それにより意味が理解できます。

また、係り受け関係を理解することで、余分な修飾を取り除いて文の骨格部分を抽出することができます。

係り受け関係を解析するには、例えば、CaboCha のようなプログラムがあります。

CaboCha作者の工藤拓さんの書籍もございます↓

近代科学社

トピックモデルによる統計的潜在意味解析 (自然言語処理シリーズ)

6), 潜在的意味論による意味分析

（統計的）潜在的意味論は、”意味”を数学的に表現するための考え方の１つです。

同じ文脈で出現する語は、同じような意味を持つ

という仮説を前提にしており、

「意味」は、文脈の中での「共起」として測定することが可能

と考えます。

え？どういうこと？

と思われるかもしれません。どういうことか説明しますね。

例えば、野球選手という単語と、具体的な選手の名前が沢山ある文書があったとします。

この文書から野球選手という単語を取り除いても、

（野球好きの方なら）多くの名前の共通項から、

この文書は野球選手についてのものだ

と隠れた共通点（トピック）について想起できるはずです。

この隠れた共通点のことを「潜在的トピック」と言います。

または単に「トピック」とも言います。

今の例はあからさまでしたが、一般的な文書にも同じように、

トピックを想起させる共起する単語のパターンがある

と考えます。

つまり、

文書の意味は、単語の共起性から想起される

と考えて以下の数式化を行っていきます。

具体的なテキストデータに適用するには、以下の手順で行います。

まず文書（文脈）ごとに、単語の頻度分布をベクトル形式に表現した共起ベクトルを作成します。

この共起ベクトルは、文書（文脈）の特徴を表していると考えられます。

しかし、多くの単語はその頻度が０である疎なベクトルです。

そこで次に、多くの文書（文脈）について求めた共起ベクトルを結合して、共起行列を作成します。

そして共起行列を特異値分解することで、情報圧縮を行います。

圧縮後の共起ベクトルを使うことで、

より良いトピックを見つけたり、
より良い意味の類似度を表現する

といった使い方ができます。

潜在的意味解析や数学的な側面の理解には、以下の書籍がおすすめです↓

コロナ社

テキストマイニング入門: ExcelとKH Coderでわかるデータ分析

7), ネガポジ分析・感情分析（センチメント分析）・評価分析

アンケート結果や、レビューの結果、SNSでのコメントなどでは、文書に感情がともなっていることがあります。

この感情の分析を行うテキストマイニングの手法が「ネガポジ分析」です。

気分が良い・悪いは、それぞれの単語ごとにある程度決まっています。

例えば、”うれしい”なら、気分がいい文脈である確率が高く

”悲しい”なら、気分が悪い文脈である確率が高いはずです。

あらかじめ単語ごとにネガポジの感情値を登録しておき、

それを元に、文や文章の感情を評価する手法になります。

ネガポジ分析の例

ネガポジの度合いが重要となるのは、書いた人の気持ちが重要な場合になります。

例えば、ネガポジ分析は、以下のもので威力を発揮します。

商品やサービスのアンケート
コールセンターへのコメント
商品やサービスへのSNSのコメント

他にも、多くの文書を幅広く分析することで、

世の中の感情

を知ることもできます。

世の中の感情を知ることで、株価の値動きの予測に生かしたりするこ応用例などがあります。

というわけで、本記事では、

テキストマイニングをやりたい初学者の方向けに、

テキストマイニングの手法をまとめました。

こちらもございます↓

オーム社

パソコンがあればできる! ことばの実験研究の方法—容認性調査、読文・産出実験からコーパスまで

ひつじ書房

朝倉書店

やってみようテキストマイニング ―自由回答アンケートの分析に挑戦! ―

朝倉書店

犯罪捜査のためのテキストマイニング: 文章の指紋を探り,サイバー犯罪に挑む計量的文体分析の手法

共立出版

人工知能を活かす　経営戦略としてのテキストマイニング

中央経済社

自然言語処理の基本と技術 (仕組みが見えるゼロからわかる)

翔泳社

15Stepで踏破自然言語処理アプリケーション開発入門 (StepUp!選書)

リックテレコム