口コミの分析方法とは?(1) 口コミデータの特定、収集、本文抽出、注意点について、わかりやすく、サクッとまとめました

口コミ 分析方法 ツール python クチコミ データ 特定 収集 本文抽出 注意点 2 Python

口コミ(クチコミ)とは、人の口から口に伝わる情報などを含んだコミュニケーションを指します。

例えば、近所の奥さんの井戸端会議を想像すると分かりやすいかと思います。

テレビCMのようなマスコミュニケーションと対比される概念になります。

近年のネットの発達とともに、口コミの概念が広がっています。

ネット上のWebサイトのコメントや掲示板、 SNSなどで気軽に人と人のコミュニケーションが、成立しています。

こうしたネット上の口コミは、井戸端会議のように、その場のみのものでなく、蓄積されてきます。

この蓄積された情報には、内容だけでなく、時間や空間情報が付いている場合もあります。

これらの情報を集める口コミ調査は、

  • マーケティングに活用
  • 自社の業務改善
  • 広告効果の測定

など、様々な観点から利用できる状況になっています。

とはいっても、これらの口コミ情報は、大量になるので、コンピュータを使って分析する必要があります。

口コミデータは、テキストデータであることがほとんどです。

なので、テキストデータを分析して情報を抽出するテキストマイニングの手法が活用できます。

一般的なテキストマイニングの手法に加えて、

口コミの分析に独特の分析方法を加えることで、

有効な情報を抽出することができます。

そこで本シリーズでは、

  • 口コミってどう分析するの?
  • 口コミ分析をラクにできるツールある?
  • 口コミ分析は python でできる?

といった、口コミ分析の初心者の方から、実際にやってみたい方のために、

  • 口コミの分析方法のやり方は?
  • 口コミ分析を手軽に行うためのツールとは?
  • 口コミ分析をpythonでやる方法

などについて、わかりやすく、サクッとまとめたいと思います。

第1弾は、口コミデータの特定、収集、本文抽出、注意点などをまとめたいと思います。

 

本記事の概要

口コミの分析方法とは?(1) 口コミデータの特定、収集、本文抽出、注意点について、わかりやすく、サクッとまとめました

口コミ分析の手順の最初のステップは、

口コミ分析のために適切なデータを収集することです。

口コミデータの特定、収集、本文抽出、注意点とは?

ここでは、口コミデータは、WebやSNSから収集するとします(他にもアンケート調査から得る方法などが考えられます)。

ちなみにアンケート調査の分析には、以下の記事がございます↓

「アンケート調査」をしたいあなたにチェックしてほしい良書、9冊はこちらです

 

口コミデータの特定

最初にやることは、必要な口コミデータの所在の特定です。

WebやSNSからの口コミデータには、

  • ホームページ、ブログ、掲示板
  • ECサイト、レビューサイトのコメント
  • SNSではツイッター

など、様々なタイプがあります。

なので、まずは、

  1. 何をやりたいかを決めて
  2. それを達成するために必要なデータを決める
  3. 必要なデータがある情報源(サイト、SNSなど)を特定する

を考える必要があります。

例えば、数年前に発売された自社商品の口コミデータを探すなら、

  • Webの掲示板
  • ECサイトの該当商品のコメント
  • レビューサイト

などを収集する方法が考えられます。

他にも、例えば、自社商品の分野の流行を調べたいなら、

ツイッターで直近のリアルタイムの口コミデータを収集するなどが考えられます。

このように、まず最終的に何のために行うかを決めることで、どういったデータを集めるかが決まってきます。

 

 

 

口コミデータの収集・本文抽出

集めるデータが決まったら、口コミデータの収集をします。

主に3つのやり方で収集します。

1), APIによる収集・本文抽出

APIとは、あるデータ群を、他のプログラムから使うときの手順ややり方を定めたルールのことです。

Application Programming Interface アプリケーション・プログラミング・インターフェースの略です。

APIを使うことで、他サイトの情報をスムーズに取得することができます。

APIがあれば、APIを使って口コミデータを取得することで、JSONなどの決まったデータ型で収集できます。

なので、本文を抽出する処理などもラクに行えます。

APIはデータの提供者が作成する必要があります。

なので、サイトによってはない場合があります。

そういった場合には以下の方法を考えます。

 

2), RSSによる収集・本文抽出

RSSとは、ウェブサイトの更新などを知らせるための文書のフォーマットのことです。

Rich Site Summary リッチ・サイト・サマリー、または、Really Simple Syndication リアリー・シンプル・シンジケーションの略です。

RSSのデータはフォーマットは、RDFという形式で書かれていますので、

RSSで取得したデータは、本文の抽出など、必要な処理をラクに行うことができます。

Webサイトやブログなどではよく使われている形式になります。

 

 

APIもRSS もなければ、以下の方法で収集することができます。

3), クローラーによる収集・スクレイピングによる本文抽出

クローラーとは、Webサイトのデータなどを自動でダウンロードして集めてくれるプログラムのことです。

この集めることをクローリングと言います。

最初にURLを指定すると、そのサイトのデータをダウンロードします。

同時に、そのサイトにあるリンクをたどって、他のサイトにアクセスします。

移動した他のサイトのデータをダウンロードします。

そのサイトでもリンクをたどって、ほかのサイトにアクセスします。

これを繰り返すことで、様々なサイトを自動的に収集することができます。

様々な設定をすることで、目的の情報を含みそうな特定のサイトだけダウンロードしたりするようプログラムすることができます。

クローリングで収集したデータは、APIやRSSのように、データの型が決まっていません。

口コミデータの分析では、収集したデータのうち、まず本文などのテキストデータを抜き出す必要があります。

このように、Webサイトなどから特定の情報を抜き出すことを「スクレイピング」と呼びます。

APIやRSSがない場合には、クローリングしてスクレイピングすることで、

口コミ情報の分析のための本文テキストデータが準備できることになります。

クローリングやスクレイピングについて詳しくはこちらをどうぞ↓

「クローリング」や「スクレイピング」を学びたいあなたにおすすめの本、8冊+α はこちらです

 

 

 

口コミデータの収集での注意点

口コミデータの収集では、いくつか注意点があります。

1), コンテンツの権利

Webサイトではサイト運営者が規約を設けている場合があり、サイトのコンテンツの扱い方についてのルールに従う必要があります。

サイトにあるコンテンツの権利は、

  • サイト運営者が持っている場合
  • 書き込みをした投稿者が持っている場合
  • オープンライセンスが適用されている場合

など、様々なタイプがあります。

あなたが収集したいサイトの利用規約などから、コンテンツの権利関係がどうなっているのか確認する必要があります。

2), 口コミ分析に役立たない記事(同一記事、スパム記事など)
同一記事(類似記事)の除外

まず同一記事について説明します。

例えば、ブログは様々なサイトで書くことができます。

あるブログサイトAでの書いてある記事と同じかほぼ同じ記事が、別のブログサイトBでも書かれている場合があります(マルチポストと呼ばれます)。

この場合、これらの記事を別のものとすると、後で統計処理した時に、ゆがみを生じてしまいます。

なので、マルチポスト投稿は除く必要があります。

マルチポストは以下の場合に分けられます。

  • 完全一致したもの
  • 大部分が一致するもの
  • 引用関係によるマルチポスト

完全一致は、個々の記事をハッシュ値でインデックスし、それを元に判定することでスムーズに行えます。

大部分が一致するものは、以下の尺度が使えます。

  • Jaccard 係数(文書の重なり具合を数値化)
  • コサイン類似度(文書の類似度を数値化)

これらは文書の総当たり計算が必要なので、計算コストを軽くするには、

  • 局所性鋭敏型ハッシュ(LHS : Locally sensitive hashing)

という手法があります。minhashやsimhashなどのやり方がございます。詳しくは以下をどうぞ↓

こちら新班がございます↓

 

 

 

スパム記事の除外

次にスパム記事について説明します。

スパム記事とは、商品の認知度を上げるために書かれた記事や商品の購買サイトへの誘導を目的とした記事などです。

これらの記事自体が悪いことはないのですが、

口コミ分析での目的は、主に消費者側の声を集めることになります。

そういう点で、スパム記事は目的に合致しない情報と言えます。

なので口コミ分析では、目的によっては取り除く必要があります。

取り除き方としては、人工知能を使います。

具体的には、スパム記事の特徴を学習した分類器を学習するという機械学習の技術が使えます。

スパム記事には一定の特徴があるので、それを学習させて分類するわけです。

 

 

 

 

というわけで、以上で、

  • 口コミ分析したい情報を集め
  • 不必要なものは取り除き
  • これから分析する本文(テキストデータ)を準備できた

ことになります。

 

テキストデータは1文のものもあれば、長文もあります。

次は、これらを分析しやすい形に整理していく必要があります。

それが第2話の1文への分割になります↓

口コミの分析方法とは?(2) 口コミデータの1文抽出(文分割)について、オープンソースのフリーソフトなども含めて、わかりやすく、サクッとまとめました

 

 

こちらもございます↓

 

 

 

こちらの記事もございます↓

「テキストマイニング」を学びたいあなたにチェックしてほしい良書、12冊はこちらです

 

「自然言語処理」を学びたい人におすすめの良書、10冊はこちらです

 

「テキストマイニング」の記事一覧はこちらです

 

↓こちら無料で読めます