テキストマイニングに使えるフリーソフトや無料で使えるツール・ライブラリ、１４選はこちらです

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

人工知能　3番目の入門書: 線形回帰分析 (ミント出版)

画像処理　０番目の入門書: Python/OpenCV　環境構築編画像処理シリーズ (ミント出版)

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)

画像処理入門　速習二値化: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

画像処理入門　速習「画像補正」: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

Python　1番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　2番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　3番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　4番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　5番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

R　チュートリアル: 無料でサクッと高機能データ分析 (ミント出版)

『「クローリング」や「スクレイピング」を学びたいあなたにおすすめの本、８冊＋α はこちらです』

本記事の概要 [表示]

テキストマイニングに使えるフリーソフトや無料で使えるツール・ライブラリ、１４選はこちらです

テキストマイニングのそれぞれのステップごとに、

フリーソフトや無料のツール・ライブラリをまとめたいと思います。

(1), テキストデータの準備

テキストマイニングでは、まずテキストデータを用意する必要があります。

自社の営業日報や、商品のアンケート結果、コールセンターへの問い合わせデータなどがあれば、

それを以後のテキストマイニングの元データとして使うことができます。

その他には、Webからテキストデータを取得する方法もございます。

Webからテキストデータをダウンロード技術の１つとして、「クローリング」があり、

以下のフリーソフトやライブラリが使えます。

wget

サクッとWebからデータを取得するには、

「wget」という無料のオープンソースソフトウェアを使うことができます。

wgetは、Webからデータをダウンロードするだけでなく、リンクを辿って、再帰的にWebページを取得することができます。

他にも、近年人気なPython でもクローリングが可能です。

Python ライブラリ「requests」

Pythonライブラリの「requests」を使えば、

指定したURLのHTMLファイルなどを取得することができます。

このようにしてクローリングしたデータには、いくつかの形式があります。たとえば、

WikipediaなどのWebサイトやブログ、ニュース記事などをダウンロードしたならHTML形式
RSSから取得すれば、RDF形式
APIから取得すれば、JSON形式

といった感じです。

これらのデータには、不要な部分が多く含まれており、必要な部分を抽出する必要があります。

この抽出することを「スクレイピング」と呼びます。

Pythonでスクレイピングするには、

Python ライブラリ「lxml」「cssselect」

といったライブラリが使えます。

requestsで取得したHTMLやXMLファイルは、lxmlによって操作できるようになり、

cssselect で cssを扱うことができ、HTMLから要素を抜き出すことができるようになります。

スクレイピング機能を持つものとして、

Python ライブラリ「BeautifulSoup」

も使えます。

これらを使うことによって、よりラクにスムーズにテキストデータを収集することが可能になります。

クローリングやスクレイピングについて、

詳しく学びたい！
テキストデータの自動取得したい！
オススメの本を知りたい！

といったあなたにはこちらがございます↓

(2), テキストデータの解析

テキストデータを取得したらすぐに分析できるわけではありません。

まずはテキストデータから文、単語、単語間の関係を抽出します。

これらを構造化しておくことで、以後の意味の解析がしやすくなります。

(2-1), 文の抽出

文の抽出を自動で行うには、主に２つの方法があります。

・文分割のための機械学習器を作成する方法
・系列ラベリング

機械学習って何？という方は、以下の記事をどうぞ↓

『「機械学習」に関する記事の一覧はこちらです』

系列ラベリングって？についてです。

系列とは、単語の列が文になっているように、何かの要素が連なっているものを指します。

「系列ラベリング」とは、文の単語に品詞をつけるのように、系列の要素に何かのラベルをつけることを言います。

見本となる教師データの作成が必要だなぁ

と思われるかもしれません。

そういった時には、オープンソースの無料ツール

doccano

が役立つかもしれません。

「doccano」は、自然言語処理・機械学習に使われるラベル付きデータ（教師データ）の作成を容易にするツール(アノテーションツール)となっています。

機械学習スタートアップシリーズ Pythonで学ぶ強化学習入門から実践まで

講談社

人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)

というわけで、以下では、

テキストマイニングを行う際に役立つソフトやツールを、

その「使いどころ」や「使い方」を交えながら解説しています。

テキストマイニングが初めて
テキストマイニングのこのステップでつまずいてるんだけど、他にいいソフトないかな
テキストマイニングの全体的な流れも知っておきたい

といったあなたにおすすめの内容となっています。

以下のステップにしたがって、

１ステップずつ、自分で考えた例文を分析するなど試していけば、

初学者の方も、知らず知らずにテキストマイニングの力がつく内容にもなっています。

この先は会員限定になります。

会員の方はログインをお願いいたします。

登録がまだの方は、会員登録をお願いします。

>>> 会員登録はこちら

↓こちら無料で読めます

ミント出版

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

画像処理　０番目の入門書: Python/OpenCV　環境構築編画像処理シリーズ (ミント出版)

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)