「Python」で「クローリング」や「スクレイピング」の実践的な開発をしたいあなたはこちらをどうぞ

Python

2017.10.232020.03.06

Webサイトから効率よくデータ収集をしたい！

と思われる方は多いかと思います。

毎日、多くのサイトをチェックするのは大変ですよね。

この作業を「自動化」できたら、ラクですよね！

それを実現するのが、「クローリング」や「スクレイピング」という技術です。

興味のあるWebサイトを自動的に収集し（クローリング）、その中から必要な情報を抽出する（スクレイピング）するテクニックのことです。

本記事では、クローリングやスクレイピングを、学びやすいプログラミング言語「Python（パイソン）」で実現するためのノウハウを学べる1冊をご紹介します↓

Amazonで「Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-」に関する詳細を見る

Amazonで探す

楽天で探す

こちら増補改訂版が出ています↓

Amazonで「Pythonクローリング&スクレイピング増補改訂版 -データ収集・解析のための実践開発ガイド」に関する詳細を見る

Amazonで探す

楽天で探す

本記事の概要

本書の目次は以下の通りです

はじめに

第1章　クローリング・スクレイピングとは何か

１－１、本書が扱う領域

１－２、Wgetによるクローリング

１－３、Unixコマンドによるスクレイピング

１－４、gihyo.jpのスクレイピング

１－５、まとめ

第2章　Pythonではじめるクローリング・スクレイピング

２－１、Pythonを使うメリット

２－２、Pythonのインストールと実行

２－３、Pythonの基礎知識

２－４、Webページを取得する

２－５、Webページからデータを抜き出す

２－６、データを保存する

２－７、Pythonによるスクレイピングの流れ

２－８、まとめ

第3章　強力なライブラリの活用

３－１、ライブラリのインストール

３－２、Webページを簡単に取得する

３－３、HTMLのスクレイピング

３－４、RSSのスクレイピング

３－５、データベースに保存する

３－６、クローラーとURL

３－７、Pythonによるクローラーの作成

３－８、まとめ

第4章　実用のためのメソッド

４－１、クローラーの分類

４－２、クローラー作成にあたっての注意

４－３、繰り返しの実行を前提とした設計

４－４、クロール先の変化に対応する

４－５、まとめ

第5章　クローリング・スクレイピングの実践とデータの活用

５－１、データセットの取得と活用

５－２、APIによるデータの収集と活用

５－３、時系列データの収集と活用

５－４、オープンデータの収集と活用

５－５、Webページの自動操作

５－６、JavaScriptを使ったページのスクレイピング

５－７、取得したデータの活用

５－８、まとめ

第6章　フレームワーク Scrapy

６－１、Scrapyの概要

６－２、Spiderの作成と実行

６－３、実践的なクローリング

６－４、抜き出したデータの処理

６－５、Scrapy の設定

６－６、Scrapy の拡張

６－７、クローリングによるデータの収集と活用

６－８、画像の収集と活用

６－９、まとめ

第7章　クローラーの継続的な運用・管理

７－１、クローラーをサーバーで動かす

７－２、クローラーの定期的な実行

７－３、クローリングとスクレイピングの分離

７－４、クローリングの高速化・非同期化

７－５、クラウドを活用する

７－６、まとめ

Appendix　Vagrantによる開発環境の構築

A1、VirtualBoxとVagrant

A2、CPUの仮想化支援機能を有効にする

A3、VirtualBoxのインストール

A4、Vagrantのインストール

A5、仮想マシンを起動する

A6、ゲストOSにSSH接続する

A7、Linuxの基本操作

A8、Vagrantで仮想マシンを操作するコマンド

おわりに

参考文献

索引

となっています。

「クローリング」や「スクレイピング」をやってみたい！というあなたには、こちらの記事もおすすめです↓

『「クローリング」や「スクレイピング」を学びたいあなたにチェックしてほしい良書、９冊＋α はこちらです』

本書をまとめると、こんな感じです

本書では、Pythonの基礎から、ライブラリ・フレームワークの活用、クローラー運用など、クローリングやスクレイピングを活用したシステム運用の全体像をシッカリ学べる本です。

クローリング＆スクレイピングとはなにか？からはじまり、Python の使い方、Python ライブラリやフレームワークの活用方法、データ収集から必要な部分の抜き取り、そして保存など、クローリング＆スクレイピングの全体をしっかり学べます。

また、著作権や利用規約、robots.txt、XMLサイトマップ、クロール先の負荷、クロール先の変化の検知など、実用で必要となる知識もきちんと解説されています。

クローリングの具体例として様々なものが紹介されています。

Wikipedia からのデータ収集
Twitter からのデータ収集
Amazon からのデータ収集
YouTube からのデータ収集
為替などの時系列データ
オープンデータ
PDFからのデータ抽出
Linked Open Data からのデータ収集
JavaScriptを使ったページのスクレイピング
取得したデータの可視化
BigQuery での解析

加えて、クローラーをサーバーで定期的に実行したり、クローリングとスクレイピングの分離、マルチスレッド・マルチプロセス化による高速化や非同期I/Oを使った非同期化、AWSのSDK やクラウドストレージなど、クラウドの活用についても解説されています。

Python3 による web スクレイピングをシッカリ学びたいあなたの手元にあって損のない1冊となっています。

なぜ、Pythonが使われているの？

Pythonが使われるには理由があるんです。

１つめの理由は、Pythonの書きやすさです。

Pythonはプログラミングを初めて学ぶ方向けの教育用の言語としても多くの大学などで教えられています。学びやすい言語なわけです。

もう１つの理由は、 Pythonにはさまざまな強力なライブラリがあることです。

例えば、クローリングするときに必要な「非同期処理」では、Pythonには、 Twisted や Tornade, asyncio などのフレームワークやライブラリがあり、手軽に使うことができるんです。

スクレイピングでは、BeautifulSoup や lxml などのライブラリがあり、他にもScrapyはクローリング＆スクレイピングに非常に役に立つフレームワークです。

これらを活用することで、簡単に素早く・効率的にクローリング＆スクレイピングを行えるわけです。

加えて、収集したデータは、NumPy, SciPy, pandas, matplotlib などを使うことで、手軽にデータ分析や可視化を行うこともできてしまいます。

Pythonのライブラリやフレームワークを活用すれば、ほんの数行のプログラムを書くだけで目的の機能を実装してりすることができ、サクッと目的を果たせるわけです。

というわけで、今回は、Python3 でクローリングやスクレイピングを実践するノウハウを基礎から学べ、応用事例や運用方法、気をつけるところや注意点など、知っておくべき知識をしっかり学べる1冊をご紹介しました↓

Amazonで「Pythonクローリング&スクレイピング -データ収集・解析のための実践開発ガイド-」に関する詳細を見る

Amazonで探す

楽天で探す

Amazonで「Pythonクローリング&スクレイピング増補改訂版 -データ収集・解析のための実践開発ガイド」に関する詳細を見る

Amazonで探す

楽天で探す

こちらもございます↓

Amazonで「Pythonスクレイピングの基本と実践データサイエンティストのためのWebデータ収集術 (impress top gear)」に関する詳細を見る

Amazonで探す

楽天で探す

Amazonで「増補改訂Pythonによるスクレイピング&機械学習開発テクニック」に関する詳細を見る

Amazonで探す

楽天で探す

Amazonで「機械学習・深層学習による自然言語処理入門 ~scikit-learnとTensorFlowを使った実践プログラミング~ (Compass Data Science)」に関する詳細を見る

Amazonで探す

楽天で探す

Amazonで「Kaggleで勝つデータ分析の技術」に関する詳細を見る

Amazonで探す

楽天で探す

こちらもどうぞ↓

『「クローリング」や「スクレイピング」を学びたいあなたにチェックしてほしい良書、９冊＋α はこちらです』

『「クローラー」作成や「スクレイピング」をやりたいあなたは、こちらはいかがでしょうか JavaScriptのスクレイピングもあります』

『「R」で「 Webスクレイピング」や「テキストマイニング」をやりたいあなたへの実践ガイドはこちらです』

『Webから知りたい情報だけをサクッと収集したいあなたはこちらをどうぞ【PythonによるWebスクレイピング】』

『「HTML」や「XML」を「Python」で手軽に扱いたいあなた「BeautifulSoup」はいかがでしょうか』

『「XMLとは？」HTMLとの違いや、どう役に立つの？ってあなたはこちらをどうぞ』

『Pythonの基本文法から実践テクニックまでサクッと学びたいあなたはこちらをどうぞ【科学技術計算のためのPython入門】』

『「テキストマイニング」を学びたいあなたにチェックしてほしい良書、１１冊はこちらです』

『「自然言語処理」を学びたい人におすすめの良書、１０冊はこちらです』

『「多変量解析」を独学したいあなたにチェックしてほしい良書、１２冊はこちらです』

『「多変量解析」を「エクセル」でサクッと実行したいあなたにおすすめの良書、９冊はこちらです』

『「ロジスティック回帰分析」をサクッと実践したいあなたにおすすめの良書１３冊はこちらです』

『「アンケート調査」をしたいあなたにチェックしてほしい良書、８冊はこちらです』

『「エクセル」で「データ分析」できるようになりたいあなたにチェックしてほしい良書１０冊はこちらです』

『「カーネル法」とは？「サポートベクターマシン」などの基礎となるカーネル法に入門したいあなたは、こちらはいかがでしょうか【カーネル多変量解析】』

『「レコメンデーション」とは？自社の顧客を増やし続け・離したくないあなた、こちらはいかがでしょうか』

『「ベクトル」を学びたい・復習したい方にチェックしてほしい良書、１０冊はこちらです』

『「Ｃ言語プログラミング」に入門したいあなたにおすすめの９冊、こちらはいかがでしょうか』

『Androidアプリケーションを開発してみたいあなた、サンプルを作りながらサクッと学べる、こちらはいかがでしょうか【Androidプログラミング入門：独りで学べるスマホアプリの作り方】』

『バーチャルリアリティ（VR）アプリケーションを開発してみたいあなた、系統的に学べるこちらはいかがでしょうか【UnityによるVRアプリケーション開発】』

本書の目次は以下の通りです

第1章 クローリング・スクレイピングとは何か

第2章 Pythonではじめるクローリング・スクレイピング

第3章 強力なライブラリの活用

第4章 実用のためのメソッド

第5章 クローリング・スクレイピングの実践とデータの活用

第6章 フレームワーク Scrapy

第7章 クローラーの継続的な運用・管理

Appendix Vagrantによる開発環境の構築

本書をまとめると、こんな感じです

なぜ、Pythonが使われているの？

１つめの理由は、Pythonの書きやすさです。

もう１つの理由は、 Pythonにはさまざまな強力なライブラリがあることです。

第1章　クローリング・スクレイピングとは何か

第2章　Pythonではじめるクローリング・スクレイピング

第3章　強力なライブラリの活用

第4章　実用のためのメソッド

第5章　クローリング・スクレイピングの実践とデータの活用

第6章　フレームワーク Scrapy

第7章　クローラーの継続的な運用・管理

Appendix　Vagrantによる開発環境の構築