口コミの分析方法とは？(2)&nbsp;口コミデータの１文抽出（文分割）について、オープンソースのフリーソフトなども含めて、わかりやすく、サクッとまとめました

『「機械学習」でソーシャルデータ分析。ビジネスを加速させたいあなたにはこちらをどうぞ』

本書の詳しくは以下の記事でまとめています↓

機械学習ってなに？という方には、以下の記事もございます↓

『「機械学習」に入門したいあなたにチェックしてほしい良書、１０冊はこちらです』

『「機械学習」を「無料」ではじめてみませんか！？【フリーソフトではじめる機械学習入門】』

文分割のやり方③：文字を文頭・２文字目以降・文の外、の３つに分ける方法（系列ラベリング）

３つ目のやり方は、文字にラベルをつけていくアルゴリズムを用います。

１文のそれぞれの文字に、次の３つのラベルをつけていきます。

文頭の文字（B）
２文字目以降の文字（ I ）
文の外の文字（ O ）

この手法を「系列ラベリング」と呼びます。

文字は順番に並ぶことで意味があります。

このような順番のあるデータを系列と言います。

その系列データにラベルをつけるので、系列ラベリングと呼ばれるわけです。

ラベルがつけれれば、ラベルに従って

「B」と「 I 」のラベルの部分を１文として取り出せます。

じゃあ、どうやってラベルをつけるの？

というところですが、ラベルのつけ方は、

以下のように数式で扱いやすいように定式化して処理します。

とりあえず仮に１文字ずつラベルをつけていったとして、その結果の良さを表す指標を計算できる数式を定義します。

最適なラベルを見つけるには、この良さを表す指標を最大にするラベルを探せばいいことになります。

最適なラベルの探し方には、いくつかのやり方が考えられます。以下で３つのやり方を説明しますね。

１つ目は、文字とラベルの個々の対応について、それぞれ推定する

１つ目はシンプルなやり方で、文字ごとにラベルを個々に推定していきます。

他の事例でも使う機会の多い、サポートベクターマシン（SVM）などの機械学習の技術を使えます。

なのでこれを機に身につければ他の場面でも役立ちます。

また、すでに使ったことのある方でしたら、新たな勉強コストが少なくてすみます。

ただその反面、文字の前後の関係などを考慮しないモデルのため、結果の精度が得にくいなどのデメリットが考えられます（特徴に周囲の情報を含めることで精度を高めることが可能です）。

機械学習については、以下のものもございます↓

オーム社

わけがわかる機械学習 ── 現実の問題を解くために、しくみを理解する

技術評論社

やさしく学ぶ機械学習を理解するための数学のきほんアヤノ＆ミオと一緒に学ぶ機械学習の理論と数学、実装まで

マイナビ出版

言語処理のための機械学習入門 (自然言語処理シリーズ 1)

２つ目は、ラベルを先頭から順庵に１つずつ推定していく方法です。

ある文字のラベル推定では、その文字の前の文字までの推定結果を加味して、推定を行います。

単語のならいによる情報を使うことで、より精度の高いラベル推定が行えます。

３つ目は、文字列全体について最適化を行う方法です。

各ラベルは直前の状態のみに影響を受ける（マルコフ性）を仮定することで、計算を軽くすることができます。

具体的には、

文字の情報をそのまま使う「隠れマルコフモデル」
あなたが使いたい特徴を採用できる「条件付き確率場」

といった手法を使うことができます。

条件付き確率場が実装されたオープンソースのフリーソフト３つとは

「条件付き確率場（CRF: Conditional Random Field）」

には、系列ラベリングを行えるオープンソースがありますので、それらを使うことも可能です。

「CRF++」では、特徴量をユーザーが定義することができるのが特徴の１つです。

C＋＋で書かれている
高速なトレーニング（LFGSアルゴリズム）
より少ないメモリ使用

といった特徴があります。

「CRF Suite」についても。

高速なトレーニング（LFGSアルゴリズム）
より少ないメモリ使用
チュートリアルやドキュメントが充実

といった特徴があります。

他にも「sklearn-crfsuite」があります。

scikit-learn は、機械学習のオープンソースの雷雨らりですが、その中に、CRFを実行できる「sklearn-crfsuite」があります。

名前からわかるように、sklearn-crfsuite では、

ない腕は、CRF Suite を良い出して使っています。

Pythonに慣れている方は、sklearn-crfsuiteから CRFを実行するのがオススメになります。

系列ラベリングについて教科書としては、以下のものがございます↓

放送大学教育振興会

コロナ社

条件付き確率場にはこちらがございます↓

京都大学学術出版会

岩波書店

というわけで、本記事では、

口コミデータの分析の第２話として、

文章から１文を抽出する方法

について、

オープンソースのフリーソフト

なども交えながら、サクッとわかりやすく、まとめました。

これでテキストデータを１文にできたことになります。

次は、１文を分析しやすい形にさらに分解していく必要があります。

それが「形態素解析」になります。

第３話で更新予定です。

SNSなど登録しておくと見逃さないかと思います。

ご登録、よろしくお願いします。

こちらもございます↓

15Stepで踏破自然言語処理アプリケーション開発入門 (StepUp!選書)

リックテレコム

現場で使える! Python自然言語処理入門

翔泳社

機械学習・深層学習による自然言語処理入門 ~scikit-learnとTensorFlowを使った実践プログラミング~ (Compass Data Science)

マイナビ出版

実践GAN ~敵対的生成ネットワークによる深層学習~ (Compass Booksシリーズ)

マイナビ出版

OpenAI Gym / Baselines 深層学習・強化学習人工知能プログラミング実践入門

ボーンデジタル

朝倉書店

深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ)

講談社

マイナビ出版

基礎からのベイズ統計学: ハミルトニアンモンテカルロ法による実践的入門

朝倉書店