Sorry, you have Javascript Disabled! To see this page as it is meant to appear, please enable your Javascript!

１冊の本に出会うことで、人生が大きく変わることがあります。良い品物に出会ったことで幸せになれることもあります。とはいっても、多様な商品があふれる中で、より価値の高いものを選び出すのは大変です。そこでこのブログでは、忙しいあなたの代わりに、史上最強の「良い本・良いくらし」の提案をさせていただきます。

忙しいあなたの代わりに、史上最強の良い本・良い暮らしのご提案

「HTML」や「XML」を「Python」で手軽に扱いたいあなた「BeautifulSoup」はいかがでしょうか

Python

2017.06.222023.03.18

HTMLやXMLファイルを自動的に処理したり、賢く処理をしたりするときに、ラクにプログラミングできたらいいですよね。Ｗｅｂページなど、クローリングしてきたデータをスクレイピングするにも、ラクにサクッとプログラミングしたいものです。

今回は、HTMLやXMLファイルをより手軽に、よりスマートに扱うための「BeautifulSoup」というライブラリの使い方を簡単にご紹介します。

複雑なHTMLやXMLも、BeautifulSoupを使うことで、サクッと処理することができます。Webサイトのスクレイピングにも活躍すること間違いなしです！

ちなみに、XMLファイルってなに？って方はこちらをどうぞ↓

『「XMLとは？」HTMLとの違いや、どう役に立つの？ってあなたは、こちらをどうぞ』

人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)

人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)

ミント出版

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

人工知能　3番目の入門書: 線形回帰分析 (ミント出版)

人工知能　3番目の入門書: 線形回帰分析 (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

画像処理　０番目の入門書: Python/OpenCV　環境構築編画像処理シリーズ (ミント出版)

画像処理　０番目の入門書: Python/OpenCV　環境構築編画像処理シリーズ (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

画像処理入門　速習二値化: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

画像処理入門　速習二値化: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

画像処理入門　速習「画像補正」: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

画像処理入門　速習「画像補正」: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Python　1番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　1番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Python　2番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　2番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Python　3番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　3番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Python　4番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　4番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Python　5番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　5番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

R　チュートリアル: 無料でサクッと高機能データ分析 (ミント出版)

R　チュートリアル: 無料でサクッと高機能データ分析 (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

本記事の概要 [表示]

BeautifulSoupとは？

「BeautifulSoup」は、HTMLやXMLファイルを処理するための便利の機能を持ったライブラリです。PythonやRubyから使うことができます。

どんなことができるの？について、１つずつ説明していきますね。

「BeautifulSoup」は「HTMLの間違いを補正」してくれる

どんなことができるかというと、まずは以下の例をみてください↓

docとして保存したHTMLの内容は、<body>タグは閉じられていないという間違いが含まれています。

BeautifulSoupで処理をすることで、#23 </body>のように、<body>タグが閉じるように修正されているのがわかります。

from BeautifulSoup import BeautifulSoup
import re

doc = ['<html><head><title>Page title</title></head>',
       '<body><p id="firstpara" align="center">This is paragraph <b>one</b>.',
       '<p id="secondpara" align="blah">This is paragraph <b>two</b>.',
       '</html>']

soup = BeautifulSoup(''.join(doc))

print soup.prettify()
#1 <html>
#2  <head>
#3   <title>
#4    Page title
#5   </title>
#6  </head>
#7  <body>
#8   <p id="firstpara" align="center">
#9    This is paragraph
#10    <b>
#11     one
#12    </b>
#13    .
#14   </p>
#15   <p id="secondpara" align="blah">
#16    This is paragraph
#17    <b>
#18     two
#19    </b>
#20    .
#21   </p>
#22  </body>
#23 </html>

ありがたいですね〜

「BeautifulSoup」は「HTMLファイルを操作」できる

他にも、HTMLファイルの中身を操作することができます。

soup.contents[0].name
# u'html'

soup.contents[0].contents[0].name
# u'head'

head = soup.contents[0].contents[0]
head.parent.name
# u'html'

head.next
# <title>Page title</title>

１番上の例は、上で生成したsoupオブジェクトから、最初のタグ名を取り出しています。

次の例では、最初のタグの中に入れ子されたタグの最初のタグ名を取り出しています。

３つ目の例では、headタグから（入れ子の）１つ外側のタグをparentを使って示しています。

4つ目は、headの次のタグ（<title>）を取り出しています。

このように、BeautifulSoupでは、HTMLのタグの入れ子構造（「パースツリー」といいます）を移動しながら、タグ名や中身を取り出したりすることができます。

「BeautifulSoup」は、特定のタグや属性をもつものを「検索」できる

まず、HTMLの構造がわかってる場合には、このような検索ができます

titleTag = soup.html.head.title
titleTag
# <title>Page title</title>

soupオブジェクトのhtmlタグ⇒headタグ⇒タイトルタグとして取り出しています。

中身だけ取り出したいときには、stringを使います。

titleTag.string
# u'Page title'

HTMLが複雑になったりすると、HTMLのツリー構造を把握するのも大変です。

そういうときに、特定のタグを検索したいなら「findAll」が使えます。

ここでは例として、<p>タグで、かつ、align=”center”属性を持つものをすべて探しています。結果はリストで返されています。

soup.findAll('p', align="center")
# [<p id="firstpara" align="center">This is paragraph <b>one</b>. </p>]

条件に合う最初の１つだけ欲しい場合には、「find」も使えます。ちなみに、「find」を使うと１つだけ探すので、リストで出てきていないことがわかります。

soup.find('p', align="center")
# <p id="firstpara" align="center">This is paragraph <b>one</b>. </p>

「BeautifulSoup」で「XMLファイル」を操作する

上でHTMLを例に説明したように、XMLでもBeautifulSoupは威力を発揮します。

HTMLのように、特定のタグを検索して、取り出したりすることも可能です。

じゃあ違いはなんなの？ってことですが、ここでは基本的な２つのポイントを挙げました。

「BeautifulSoup」で「XML」、HTMLとの２つの違いとは？

①、XMLを扱うときには、「BeautifulStoneSoup」をインポートする

# For processing HTML
from BeautifulSoup import BeautifulSoup          

# For processing XML
from BeautifulSoup import BeautifulStoneSoup     

# To get everything
import BeautifulSoup

ちなみに、HTML、XMLどちらもという方は、３番目のようにするとオッケーです＾＾

②、XMLは、間違いの自動修正がむずかしい

HTMLについては、BeautifulSoupは、タグの閉じ忘れなど、間違いがあれば自動的に修正してくれました。HTMLはルールが決まっているため、そういった修正が可能だったんでした。

ところが、XMLにはHTMLのような明確なルールがありません。

なので、HTMLのようなタグの修正などが苦手という特徴があります。

というわけで、今回は「BeautifulSoup」について、簡単な概要を説明しました。

だいたいどんなことが出来るか把握していただけたでしょうか？

もっと詳しい内容が必要でしたら、以下のドキュメントをご覧ください↓

（日本語）Beautiful Soupドキュメント

（英語）Beautiful Soup Documentation

実際の活用には、以下の本もおすすめです↓

PythonによるWebスクレイピング第2版

PythonによるWebスクレイピング第2版

オライリージャパン

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

増補改訂Pythonによるスクレイピング&機械学習開発テクニック

増補改訂Pythonによるスクレイピング&機械学習開発テクニック

ソシム

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

退屈なことはPythonにやらせよう ―ノンプログラマーにもできる自動化処理プログラミング

オライリージャパン

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

こちら無料です↓

人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)

人工知能　１番最初の入門書: ディープラーニングの祖先を理解する (ミント出版)

ミント出版

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

サクッとわかる人工知能第２巻: ディープラーニングの祖先を「改良」する (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

人工知能　3番目の入門書: 線形回帰分析 (ミント出版)

人工知能　3番目の入門書: 線形回帰分析 (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

画像処理　０番目の入門書: Python/OpenCV　環境構築編画像処理シリーズ (ミント出版)

画像処理　０番目の入門書: Python/OpenCV　環境構築編画像処理シリーズ (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)

画像処理　１番最初の入門書画像処理シリーズ (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

画像処理入門　速習二値化: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

画像処理入門　速習二値化: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

画像処理入門　速習「画像補正」: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

画像処理入門　速習「画像補正」: Python/OpenCVでサクッと実行画像処理シリーズ (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Python　1番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　1番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Python　2番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　2番最初の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Python　3番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　3番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Python　4番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　4番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

Python　5番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Python　5番目の入門書: コスパ最高　無料でプログラミング Python プログラミング (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す

R　チュートリアル: 無料でサクッと高機能データ分析 (ミント出版)

R　チュートリアル: 無料でサクッと高機能データ分析 (ミント出版)

Amazonの商品レビュー・口コミを見る

Amazonで探す

楽天で探す