「R」で「 Webスクレイピング」や「テキストマイニング」をやりたいあなたへの実践ガイドはこちらです

2017.10.252020.03.06

質の高いデータがほしいけど、予算も時間も限られている

データは収集するだけでなく、分析して、再現可能な結果を導き、レポートにまとめたい

といった悩みをもつ方も多いのではないでしょうか。

Amazonで「Rによるスクレイピング入門」に関する詳細を見る

Amazonで探す

楽天で探す

Webからデータを収集（クローリング）して、必要な情報を抽出（スクレイピング）すれば、予算は少なく抑えられます。

また、統計解析のフリーソフト「R」を使ってプログラミングをすることで、収集や抽出を「自動化」し、その後のデータ分析や、レポートの作成も非常に便利に行うことができます。

というわけで、本記事では、Rを使ったデータの自動収集やスクレイピングを基礎からシッカリ学べる良書をご紹介します↓

Amazonで「Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド」に関する詳細を見る

Amazonで探す

楽天で探す

本記事の概要

本書の構成は以下の通りです

第1部　Webとデータの技術入門

第1章　導入

１－１、ケーススタディ：危機にある世界遺産

１－２、Webのデータの品質について

１－３、Webデータを配信、抽出、そして保存する技術

１－４、本書の構成

第2章　HTML

２－１、ブラウザでの表示とソースコード

２－２、構文規則

２－３、タグおよび属性

２－４、構文解析

第3章　XMLとJSON

３－１、XMLドキュメントの具体例

３－２、XML構文規則

３－３、XMLドキュメントが正しく形成され、有効となるのはどのような場合か

３－４、XML拡張機能と技術

３－５、XMLとRの練習

３－６、JSONドキュメントの具体例

３－７、JSONの構文規則

３－８、JSONとRの練習

第4章　XPATH

４－１、XPath Webドキュメント用のクエリ言語

４－２、XPathによるノードセットの識別

４－３、ノード要素の抽出

第5章　HTTP

５－１、HTTPの基本

５－２、HTTPの高度な技術

５－３、HTTP以外のプロトコル

５－４、HTTPプロトコルの実際

第6章　AJAX

６－１、JavaScript

６－２、XHR

６－３、Web開発者ツールでAJAXを調査する

第7章　SQLとリレーショナルデータベース

７－１、概要および用語

７－２、リレーショナルデータベース

７－３、SQL:　データベースと会話するための言語

７－４、データベースの実践

第8章　正規表現と重要な文字列関数

８－１、正規表現

８－２、文字列処理

８－３、文字エンコーディング

第2部　Webスクレイピングとテキストマイニングのためのツールボックス

第9章　Webからのスクレイピング

９－１、収集のシナリオ

９－２、抽出方法

９－３、Webスクレイピング：グッドプラクティス

９－４、インスピレーションを与えてくれる価値ある情報源

第10章　統計的テキスト処理

１０－１、例：英国政府のプレスリリースを分類する

１０－２、テキストデータの処理

１０－３、教師あり学習の手法

１０－４、教師なし学習の手法

第11章　データ分析プロジェクトの管理

１１－１、ファイルシステムの操作

１１－２、複数のドキュメントやリンクの処理

１１－３、スクレイピング処理の構築

１１－４、Rスクリプトの定期実行

第3部　事例集

第12章　アメリカ上院議員間のコラボレーションネットワーク

１２－１、法案に関する情報

１２－２、上院議員の情報

１２－３、ネットワーク構造の解析

１２－４、結論

第13章　半構造化されたドキュメントから情報を抜き出す

１３－１、FTPサーバからデータをダウンロードする

１３－２、半構造化されたテキストデータをパースする

１３－３、測候所と気温データの可視化

第14章　Twitterによる2014年度アカデミー賞予測

１４－１、TwitterAPI：概要

１４－２、Twitterベースでの2014年度アカデミー賞予測

１４－３、結論

第15章　名字の地理的な分布のマッピング

１５－１、データ収集戦略の構築

１５－２、Webサイトの調査

１５－３、データの検索と情報の抽出

１５－４、名字のマッピング

１５－５、プロセスの自動化

第16章　携帯電話のデータを集める

１６－１、ページの探索

１６－２、スクレイピングの実施手順

１６－３、グラフィカル分析

１６－４、データの蓄積

第17章　商品レビューのセンチメント分析

１７－１、イントロダクション

１７－２、データ収集

１７－３、データの分析

１７－４、結論

参考文献

訳者あとがき

事項索引

パッケージ索引

本書の内容は、以下のような感じです

本書は、統計解析のフリーソフト「R」による自動データ収集やスクレイピングに関する1冊です。

3部構成になっていて、第1部で Web にある情報についての基礎知識が丁寧に説明され、第2部では R によるクローリングやスクレイピングのやり方が解説されています。最後第3部では、r によるクローリングやスクレイピングの事例が６つ紹介されています。

副題にあるように、Webスクレイピングやテキストマイニングの活用を中心に書かれているのですが、そのために必要な基礎の基礎から説明がされているのが特徴の１つです。

たとえば、Webのスクレイピングをするには、Webについて知らなければなりませんが、その点について、HTML, XML, JSON, XPATH, HTTP, AJAX, SQL, 正規表現などのWebとデータに関する基礎知識を、第1部として徹底的に解説してくれます。

ここはRだけに特化しているわけでなく、多くが一般的な解説なので、R以外の言語を使ってクローリングやスクレイピングをしていたけど、うまくいかなかった方なども、一度参照してみると学びがあるのではないでしょうか。

この部分だけで半分の250ページほどに費やされていることからも、基礎知識をしっかり学べる1冊というのがわかっていただけるかと思います。

第2部からいよいよRによるWebスクレイピングの解説になります。

ここからはRのパッケージやRのコマンド、Rのプログラミングコードが随所に登場して、１つ１つのタスクの実行を解説してくれます。HTTP技術を中心に、lubcurl の使い方を示しながら、Webスクレイピングのシナリオを説明しています。

APIやOAuthの扱いや動的コンテンツのスクレイピングやSeleniumを使ったJavaScriptによる拡張されたページからのデータ収集なども学べます。

収集したデータは、readLines() や stringr パッケージ、XMLでは、xml Parse()や XPath などによるスクレイピング方法などが解説されています。

また、Webスクレイピングにおけるエチケットマニュアルが示されていて、有効なデータがあるか・APIインターフェースがあるか、背後にデータベースがあるか・robots.txt はあるか・そのページの利用を明確に禁じる利用規約があるか・といった場合の対処法が一覧にまとめられていてわかりやすいです。

その後、統計的テキスト処理のやり方についての解説があり、大規模なテキスト操作でのｔｍパッケージの活用や、TermDocumentMatrix()による単語文書行列の作成、数字や句読点の削除・ステミングなどのデータクレンジングなどがRコードとともに学べます。

そして教師あり学習としてサポートベクターマシンやランダムフォレスト、最大エントロピー法などがサクッと紹介されており、本書ではRTextToolsパッケージが紹介されています。教師なし学習では、階層的クラスタリングやLatent Dirichlet Allocation (LDA)の分析例が示されています。

第3部では事例集として、アメリカ上院議員間のコラボレーションネットワーク, 測候所と気温データの可視化, Twitterによる2014年度アカデミー賞予測, 名字の地理的な分布のマッピング, 携帯電話のデータを集める, 商品レビューのセンチメント分析などが挙げられており、実際の応用事例を肌で感じることができます。

全体を通して言えることは、Rによる自動データ収集というタイトルですが、かなり控えめに言っていても、実際はWebスクレイピングやテキストマイニングによる分析だけでなく、Webの基礎の基礎知識から具体的な応用事例まで、非常に情報量が豊富な良書です。Rを中心に書かれていますが、必ずしもRに依存しない情報も多々あり、他の言語で実装したい方の参考にもなるのではないでしょうか。

Rだけでなく、Webスクレイピングを包括的にシッカリ学びたいあなたには、辞書的な使い方もできるので、手元にあって損はない1冊となるはずです。

なぜ「R」を使うの？Rを使うメリットとは？

Rを使うメリットはたくさんあります。

たとえば、Rは「フリー」なので、誰でもいつでも無料で使うことができます。また、オープンソースなので中でどんな計算をしているのかを確認することができ、自分自身の勉強にもなります。そしてOSを選ぶこともないので、Windowsの方も、Macの方も、Linuxの方も、いずれも同じように使うことが可能です。

分析面では、非常に多くの手法がすでにプログラミングされており、利用者は数行のコマンドを打ち込むだけで高度な分析手法を手軽に再利用することができます。もちろん自分でオリジナルな手法をプログラミングすることも可能です。

得られた結果などをレポートにする際には、その見せ方も重要ですが、Rには「優れた可視化機能」があり、データや分析結果について訴求力の高い図を作成することができます。

このように、データ収集から分析・レポーティングの上流から下流まで１つのソフトで通してできるので、仕事もはかどるのではないでしょうか。

というわけで、今回は、Rによるデータのクローリングやスクレイピング、そしてテキストマイニングなどデータ分析も学べる、情報量豊富な本をご紹介しました。

Amazonで「Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド」に関する詳細を見る

Amazonで探す

楽天で探す

Amazonで「Rによるスクレイピング入門」に関する詳細を見る

Amazonで探す

楽天で探す

こちらの記事もございます↓

『「クローリング」や「スクレイピング」を学びたいあなたにチェックしてほしい良書、９冊＋α はこちらです』