Webから知りたい情報だけをサクッと収集したいあなたはこちらをどうぞ【PythonによるWebスクレイピング】

最近、たくさんのWebページを毎日チェックしてるなぁ〜

ほしい情報はその中の一部分なんだけど、

もっと手軽に短時間でサクッとチェックできないかなぁ〜

なんて思われる方もおられるかもしれません。

Webの情報は毎日指数関数的に増えていて、それらの中から自分の欲しい情報を適切に短時間で集めてくるのは、どんどん難しくなっています。

また、自分がほしい情報自体の量も増えていて、１つ１つクリックしてみていては追いつかない状況になってきているのではないでしょうか？

そんなあなたのために、本記事では、情報収集を効率的に行い、ラクに自由な時間を増やせる技術「スクレイピング」についてご紹介します。

PythonによるWebスクレイピング第2版

オライリージャパン

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

本記事の概要 [表示]

Webの情報を、もっと手軽に、サクッとチェックできないかなぁ

情報洪水の中から、必要な情報だけを、ラクに・効率的に得られる「仕組み」って作れないんでしょうか？じつは、作れるんです！

そんな仕組みづくりのための技術が「スクレイピング」です。

毎日更新されるニュースの中から自分が知りたいものだけをピックアップしたい

興味あるWebサイトに関係する他のWebサイトを網羅的に調べたい

など、こういうことを行いたいあなたには、スクレイピングは必須の技術で、大必ず大きな助けになります。

え！ほんと！！

ほんとなんです！

とはいっても、

Webにある情報をどう扱ったらいいの？
JavaScriptやクッキーなどはどう使えばいいの？
WebスクレイピングとAPIって、どう違うの？

などさまざまな疑問もあるかと思います。そこで本記事では、Webスクレイピングとはなにか？ということから、じっさいに自分でスクレイピングを行うプログラムをサクッと作れるようになる１冊をご紹介します。

PythonによるWebスクレイピング第2版

オライリージャパン

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Webスクレイピングってなに？

「Webスクレイピング」とは、Webサーバにクエリを出してデータを得て、そこから必要な情報を抽出する一連のプロセスのことを指します。

Webスクレイピングには、別の呼び方もあります。

例えば、スクリーンスクレイピング、データマイニング、Webハーベスティングなどの呼び方もありました。現在ではWebスクレイピングという言い方がよく使われています。

ちなみに、Webスクレイピングを自動的に行うプログラムのことを「bot（ボット）」とも呼ぶので、覚えておくとよいかと思います。

なんだか難しそうだな〜

と思われた方もおられるかもしれません。

でもじつはこれは、私たちが普段、Webブラウザを通じてやっていることと全く同じなんです。

普段あなたはWebページを開いたら、興味あるリンクをクリックしながら情報を集めています。

このとき使っているWebブラウザは、あなたが指定した動作（この場合新しいリンク先のページを表示すること）を実現するために、リンク先の情報をもったWebサーバに要求を出し、表示するための情報を得て、それを調えてブラウザに表示します。

Webスクレイピングでは、これをWebブラウザを使わずに、自動的に行ってしまおうというわけです。

Webブラウザを使えばできるのに、なぜわざわざ使わないで行おうとするの？

と思われる方もおられるかもしれません。

Webブラウザを介すると、１つ１つクリックなどの動作が必要になります。もし大量のページの情報を得たい時にはこれでは時間がかかってしまいます。Webスクレイピングで行えば、Webブラウザを介しないので、大量のデータを処理する際にチカラを発揮するわけです。

Webのデータを集めるには他にも「API」を使う方法があります。

APIは便利ですが、そもそもAPIを作ってないサイトもありますし、複数のサイトをまたがって情報を集めたいときなど、共通のAPIがないこともあります。

また、APIには制限があることがあり、１日使える容量や回数、指定されたデータ型のみといった感じに、自分の自由に使えないこともあります。そういった時にも、自由にできるWebスクレイピングが役に立ちます。

Webスクレイピングって、具体的にはどう役立つの？

って思われるかもしれません。

考え方としては、あなたがいつも行っていることを、プログラミングすればいいのです。新聞社のサイトをみているなら新聞社のサイトのスクレイピングを行い、経済面だけ知りたいなら、そこから経済情報だけを取り出せばいいのです。

他にもたとえば、以下のような応用が考えられます

様々なニュースを集めてきて分析することで、株価を予測する
Yahoo知恵袋やお悩みサイトの内容を精査することで、優秀なカウンセラーボットをつくる
適切な医療情報を集めてくれば、医療診断を行うボットをつくる

このように、Webスクレイピングによって、様々な価値あるシステムを構築することができます。

Webスクレイピングは、どんな技術を使うの？

Webスクレイピングは、それが１つの技術というわけでなく、様々な技術を組み合わせて行う一連の作業をまとめて呼ぶ呼び方です。なのでWebスクレイピングを実現するには、いろいろな技術を使います。例えば、

Webサーバ、HTTP, HTML, インターネットセキュリティ

などの知識は欠かせません。また、

収集したデータはデータベースに格納
収集したデータをデータサイエンス技術で分析して新しい知見を発見
画像であれば画像処理

など、これらを駆使することで、おもしろいアプリケーションが作れるかもしれません。

こういった技術はそれぞれに学べば学ぶほど深くなりますよね。本書ではこれらの詳細には立ち入らず、スクレイピングに使うという範囲でサクッとまとめられています。なので、より詳しく学びたいな！ちょっと物足りないって方は、それらの専門書を参照するとよりよいスクレイピングが実現できます。

でも、いざこれらを学ぶとなると、いろいろ本を調べたり大変ですよね〜

そこで、これらの技術がまとめて学べ、Webスクレイピングについて包括的に学べる１冊がこちらです。

PythonによるWebスクレイピング第2版

オライリージャパン

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

本書はWebからほとんどの種類のデータを収集するためのスクレイピングの入門書です。プログラミング言語にはpythonを使用しており、基本の概要は示しますが、pythonについては他書で勉強する必要があります。

たとえば、「入門Python 3」などがおすすめです。

オライリージャパン

また、付録Cには、スクレイピングのケーススタディが列挙されているので、どのように使えるか、より具体的にイメージできるので、あなたのアイデアが実現可能かを検討するのにも役に立つはずです。

本書の構成は以下の通りです。

第１部　スクレイパーを作る

１章　最初のWebスクレイパー

１、つなげる

２、はじめてのBeautifulSoup

２章　高度なHTMLパーシング

１、いつもハンマーが必要なわけではない

２、BeautifulSoupの別の使い方

３、正規表現

４、正規表現とBeutifulSoup

５、属性へのアクセス

６、ラムダ式

７、BeautifulSoupを超えて

３章　クローリングを開始する

１、単一ドメインを走査する

２、サイト全体をクローリング

３、インターネットをクローリング

４、Scrapyでクローリング

４章　APIを使う

１、APIはどう働くか

２、共通表記

３、レスポンス

４、Echo Nest

５、Twitter

６、Google API

７、JSONをパースする

８、すべてをホームに集める

９、APIについてさらに学ぶ

５章　データを格納する

１、メディアファイル

２、データをCSVに格納する

３、MySQL

４、メール

６章　文書を読む

１、文書エンコーディング

２、テキスト

３、CSV

４、PDF

５、Microsoft Word と .docx

第２部　高度なスクレイピング

７章　汚れたデータをクリーニング

１、コードでのクリーニング

２、事実の後でクリーニング

８章　自然言語の読み書き

１、データを要約する

２、マルコフモデル

３、Natural Language Toolkit

４、追加の情報源

９章　フォームとログインでクロール

１、Pythonリクエストライブラリ

２、基本フォームをサブミットする

３、ラジオボタン、チェックボックス、その他入力

４、ファイルと画像のサブミット

５、ログインとクッキーを扱う

５、他のフォーム問題

１０章　JavaScriptのスクレイピング

１、JavaScriptの簡単な紹介

２、Ajaxと動的HTML

３、リダイレクトの処理

４、JavaScriptについての最終ノート

１１章　画像処理とテキスト認識

１、画像処理ライブラリ

２、きちんとフォーマットされたテキストの処理

３、CAPTCHAの読み込みとTesseractの訓練

４、CAPTCHAの獲得と解のサブミット

１２章　スクレイピングの落とし穴を避ける

１、倫理についての注意

２、人間らしく見せる

３、共通フォームセキュリティ構造

４、人間らしく見せるためのチェックリスト

１３章　Webサイトをスクレイパーでテストする

１、テスト入門

２、Pythonのunittest

３、Seleniumでテストする

４、unittest か Seleniumか？

１４章　リモートでスクレイピング

１、なぜリモートサーバを使うか

２、Tor

３、リモートホスティング

４、追加の参考書

５、さらに進むために

付録A　Python入門

A-1, インストールと{Hello, World!}

付録B　インターネット入門

付録C　Webスクレイピングの違法性と倫理

C-1, 商標、著作権、特許

C-2, 動産不法侵入

C-3, コンピュータ犯罪取締法

C-4, robots.txt とサービス規約

C-5, ３つのWeb スクレイパー

訳者あとがき

索引

となっています。

Webの情報をサクッと効率的に扱いたい！

情報洪水の中から、必要なモノだけ目にしたい！

など、忙しいあなたの時間を、もっと効率的にしてくれる「スクレイピング」について、サクッと入門させてくれる１冊となっています。おすすめです。

PythonによるWebスクレイピング第2版

オライリージャパン

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

「クローリング」や「スクレイピング」についてはこちらもどうぞ↓

Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-

技術評論社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

詳しくはこちらの記事にございます↓

『「Python」で「クローリング」や「スクレイピング」の実践的な開発をしたいあなたはこちらをどうぞ』

Pythonによるクローラー&スクレイピング入門設計・開発から収集データの解析・運用まで

翔泳社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

詳しくはこちらの記事にございます↓

『「クローラー」作成や「スクレイピング」をやりたいあなたは、こちらはいかがでしょうか JavaScriptのスクレイピングもあります』

Rによる自動データ収集: Webスクレイピングとテキストマイニングの実践ガイド

共立出版

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

詳しくはこちらの記事にございます↓

『「R」で「 Webスクレイピング」や「テキストマイニング」をやりたいあなたへの実践ガイドはこちらです』

他にこちらもございます↓

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

オライリージャパン

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

データを集める技術 (Informatics ＆IDEA)

SBクリエイティブ

シーアンドアール研究所

増補改訂Pythonによるスクレイピング&機械学習開発テクニック

ソシム

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Rubyによるクローラー開発技法　巡回・解析機能の実装と21の運用例

SBクリエイティブ

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

JS+Node.jsによるWebクローラー/ネットエージェント開発テクニック

ソシム

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Pythonによるデータ分析入門第2版 ―NumPy、pandasを使ったデータ処理

オライリージャパン

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Pythonでブラウザを自動操作してみよう

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Selenium実践入門 ―― 自動化による継続的なブラウザテスト (WEB+DB PRESS plus)

技術評論社

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

こちらの記事もございます↓

『「クローリング」や「スクレイピング」を学びたいあなたにチェックしてほしい良書、９冊＋α はこちらです』

『「HTML」や「XML」を「Python」で手軽に扱いたいあなた「BeautifulSoup」はいかがでしょうか』

『「XMLとは？」HTMLとの違いや、どう役に立つの？ってあなたはこちらをどうぞ』

Webの情報を、もっと手軽に、サクッとチェックできないかなぁ

Webスクレイピングってなに？

Webスクレイピングって、具体的にはどう役立つの？

Webスクレイピングは、どんな技術を使うの？

第１部 スクレイパーを作る

１章 最初のWebスクレイパー

２章 高度なHTMLパーシング

３章 クローリングを開始する

４章 APIを使う

５章 データを格納する

６章 文書を読む

第２部 高度なスクレイピング

７章 汚れたデータをクリーニング

８章 自然言語の読み書き

９章 フォームとログインでクロール

１０章 JavaScriptのスクレイピング

１１章 画像処理とテキスト認識

１２章 スクレイピングの落とし穴を避ける

１３章 Webサイトをスクレイパーでテストする

１４章 リモートでスクレイピング

付録A Python入門

付録B インターネット入門

付録C Webスクレイピングの違法性と倫理

訳者あとがき

索引

第１部　スクレイパーを作る

１章　最初のWebスクレイパー

２章　高度なHTMLパーシング

３章　クローリングを開始する

４章　APIを使う

５章　データを格納する

６章　文書を読む

第２部　高度なスクレイピング

７章　汚れたデータをクリーニング

８章　自然言語の読み書き

９章　フォームとログインでクロール

１０章　JavaScriptのスクレイピング

１１章　画像処理とテキスト認識

１２章　スクレイピングの落とし穴を避ける

１３章　Webサイトをスクレイパーでテストする

１４章　リモートでスクレイピング

付録A　Python入門

付録B　インターネット入門

付録C　Webスクレイピングの違法性と倫理