口コミの分析方法とは？(1)&nbsp;口コミデータの特定、収集、本文抽出、注意点について、わかりやすく、サクッとまとめました

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

画像処理　０番目の入門書: Python/OpenCV　環境構築編画像処理シリーズ (ミント出版)

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)

『「アンケート調査」をしたいあなたにチェックしてほしい良書、９冊はこちらです』

本記事の概要

口コミの分析方法とは？(1) 口コミデータの特定、収集、本文抽出、注意点について、わかりやすく、サクッとまとめました

口コミ分析の手順の最初のステップは、

口コミ分析のために適切なデータを収集することです。

口コミデータの特定、収集、本文抽出、注意点とは？

ここでは、口コミデータは、WebやSNSから収集するとします（他にもアンケート調査から得る方法などが考えられます）。

ちなみにアンケート調査の分析には、以下の記事がございます↓

口コミデータの特定

最初にやることは、必要な口コミデータの所在の特定です。

WebやSNSからの口コミデータには、

ホームページ、ブログ、掲示板
ECサイト、レビューサイトのコメント
SNSではツイッター

など、様々なタイプがあります。

なので、まずは、

何をやりたいかを決めて
それを達成するために必要なデータを決める
必要なデータがある情報源（サイト、SNSなど）を特定する

を考える必要があります。

例えば、数年前に発売された自社商品の口コミデータを探すなら、

Webの掲示板
ECサイトの該当商品のコメント
レビューサイト

などを収集する方法が考えられます。

他にも、例えば、自社商品の分野の流行を調べたいなら、

ツイッターで直近のリアルタイムの口コミデータを収集するなどが考えられます。

このように、まず最終的に何のために行うかを決めることで、どういったデータを集めるかが決まってきます。

口コミデータの収集・本文抽出

集めるデータが決まったら、口コミデータの収集をします。

主に３つのやり方で収集します。

1), APIによる収集・本文抽出

APIとは、あるデータ群を、他のプログラムから使うときの手順ややり方を定めたルールのことです。

Application Programming Interface アプリケーション・プログラミング・インターフェースの略です。

APIを使うことで、他サイトの情報をスムーズに取得することができます。

APIがあれば、APIを使って口コミデータを取得することで、JSONなどの決まったデータ型で収集できます。

なので、本文を抽出する処理などもラクに行えます。

APIはデータの提供者が作成する必要があります。

なので、サイトによってはない場合があります。

そういった場合には以下の方法を考えます。

2), RSSによる収集・本文抽出

RSSとは、ウェブサイトの更新などを知らせるための文書のフォーマットのことです。

Rich Site Summary リッチ・サイト・サマリー、または、Really Simple Syndication リアリー・シンプル・シンジケーションの略です。

RSSのデータはフォーマットは、RDFという形式で書かれていますので、

RSSで取得したデータは、本文の抽出など、必要な処理をラクに行うことができます。

Webサイトやブログなどではよく使われている形式になります。

APIもRSS もなければ、以下の方法で収集することができます。

3), クローラーによる収集・スクレイピングによる本文抽出

クローラーとは、Webサイトのデータなどを自動でダウンロードして集めてくれるプログラムのことです。

この集めることをクローリングと言います。

最初にURLを指定すると、そのサイトのデータをダウンロードします。

同時に、そのサイトにあるリンクをたどって、他のサイトにアクセスします。

移動した他のサイトのデータをダウンロードします。

そのサイトでもリンクをたどって、ほかのサイトにアクセスします。

これを繰り返すことで、様々なサイトを自動的に収集することができます。

様々な設定をすることで、目的の情報を含みそうな特定のサイトだけダウンロードしたりするようプログラムすることができます。

クローリングで収集したデータは、APIやRSSのように、データの型が決まっていません。

口コミデータの分析では、収集したデータのうち、まず本文などのテキストデータを抜き出す必要があります。

このように、Webサイトなどから特定の情報を抜き出すことを「スクレイピング」と呼びます。

APIやRSSがない場合には、クローリングしてスクレイピングすることで、

口コミ情報の分析のための本文テキストデータが準備できることになります。

クローリングやスクレイピングについて詳しくはこちらをどうぞ↓

『「クローリング」や「スクレイピング」を学びたいあなたにおすすめの本、８冊＋α はこちらです』

口コミデータの収集での注意点

口コミデータの収集では、いくつか注意点があります。

1), コンテンツの権利

Webサイトではサイト運営者が規約を設けている場合があり、サイトのコンテンツの扱い方についてのルールに従う必要があります。

サイトにあるコンテンツの権利は、

サイト運営者が持っている場合
書き込みをした投稿者が持っている場合
オープンライセンスが適用されている場合

など、様々なタイプがあります。

あなたが収集したいサイトの利用規約などから、コンテンツの権利関係がどうなっているのか確認する必要があります。

2), 口コミ分析に役立たない記事（同一記事、スパム記事など）

同一記事（類似記事）の除外

まず同一記事について説明します。

例えば、ブログは様々なサイトで書くことができます。

あるブログサイトAでの書いてある記事と同じかほぼ同じ記事が、別のブログサイトBでも書かれている場合があります（マルチポストと呼ばれます）。

この場合、これらの記事を別のものとすると、後で統計処理した時に、ゆがみを生じてしまいます。

なので、マルチポスト投稿は除く必要があります。

マルチポストは以下の場合に分けられます。

完全一致したもの
大部分が一致するもの
引用関係によるマルチポスト

完全一致は、個々の記事をハッシュ値でインデックスし、それを元に判定することでスムーズに行えます。

大部分が一致するものは、以下の尺度が使えます。

Jaccard 係数（文書の重なり具合を数値化）
コサイン類似度（文書の類似度を数値化）

これらは文書の総当たり計算が必要なので、計算コストを軽くするには、

局所性鋭敏型ハッシュ（LHS : Locally sensitive hashing）

という手法があります。minhashやsimhashなどのやり方がございます。詳しくは以下をどうぞ↓

共立出版

こちら新班がございます↓

Mining of Massive Datasets

Cambridge University Press

ウェブデータの機械学習 (機械学習プロフェッショナルシリーズ)

スパム記事の除外

次にスパム記事について説明します。

スパム記事とは、商品の認知度を上げるために書かれた記事や商品の購買サイトへの誘導を目的とした記事などです。

これらの記事自体が悪いことはないのですが、

口コミ分析での目的は、主に消費者側の声を集めることになります。

そういう点で、スパム記事は目的に合致しない情報と言えます。

なので口コミ分析では、目的によっては取り除く必要があります。

取り除き方としては、人工知能を使います。

具体的には、スパム記事の特徴を学習した分類器を学習するという機械学習の技術が使えます。

スパム記事には一定の特徴があるので、それを学習させて分類するわけです。

講談社

『口コミの分析方法とは？(2) 口コミデータの１文抽出（文分割）について、オープンソースのフリーソフトなども含めて、わかりやすく、サクッとまとめました』

というわけで、以上で、

口コミ分析したい情報を集め
不必要なものは取り除き
これから分析する本文（テキストデータ）を準備できた

ことになります。

テキストデータは１文のものもあれば、長文もあります。

次は、これらを分析しやすい形に整理していく必要があります。

それが第２話の１文への分割になります↓

こちらもございます↓

仕事に使えるクチコミ分析[テキストマイニングと統計学をマーケティングに活用する]

技術評論社

eクチコミと消費者行動 - 情報取得・製品評価プロセスにおけるeクチコミの多様な影響

千倉書房

Rではじめるソーシャルメディア分析: Twitterからニュースサイトまで

共立出版

Twitterカンバセーション・マーケティング: ビジネスを成功に導く“会話”の正体

日経BPマーケティング(日本経済新聞出版

ソーシャルメディアクチコミ分析入門 Twitter/ブログ/掲示板...に秘められた生活者が本当に求めるものの見つけ方

SBクリエイティブ

『「テキストマイニング」を学びたいあなたにチェックしてほしい良書、１２冊はこちらです』

こちらの記事もございます↓

『「自然言語処理」を学びたい人におすすめの良書、１０冊はこちらです』

『「テキストマイニング」の記事一覧はこちらです』

↓こちら無料で読めます

人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)

ミント出版

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

画像処理　０番目の入門書: Python/OpenCV　環境構築編画像処理シリーズ (ミント出版)

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)