PythonによるWebスクレイピングでは、requests と Beautiful Soup の2つのライブラリが定番です。requestsでHTMLをダウンロードし、Beautiful Soup で解析して情報を取り出します。
Beautiful Soup でHTMLの中からHTML要素を取得するには「find系」(find_all()、find())と「select系」(select()、select_one())という2タイプのメソッドを用います。
機能は2つとも同じであり、検索条件に合うHTML要素を返します。
異なるのは「検索条件の指定方法」です。例えば、href属性が”sample.pdf”のa要素を検索するには、それぞれ以下のような書き方になります。どちらも同じ要素を返します。
soup.find_all("a", href="sample.pdf")
soup.select("a[href='sample.pdf']")
このように、find_all()メソッドは「要素名」に続いて「属性」をキーワード引数で指定できます。一方、select()メソッドは、「CSSセレクタ」が使えます。
find_all()とselect()は要素をリストで返しますが、以下の表のようにマッチする要素をひとつだけ返すメソッドも用意されています。
★★★ビルメンテナンス(設備)Part.390★★★
レス数が900を超えています。1000を超えると表示できなくなるよ。
941名無しさん@引く手あまた
2021/02/02(火) 12:35:20.13ID:0UyLhoBA0レス数が900を超えています。1000を超えると表示できなくなるよ。
ニュース
- 【神奈川県警】行方不明の岡﨑彩咲陽さん(20)元交際相手からのストーカー被害を警察に訴え…祖母の家に避難「事件性はない」★2 [ぐれ★]
- 【農業】「コメ農家が国に殺されかけている」価格高騰も農家に恩恵なし…「令和の百姓一揆」代表が語った国への怒り [ぐれ★]
- 【大阪】西成・小学生7人負傷事件、殺人未遂容疑で逮捕の東京都東村山市の28歳無職の男「全てが嫌になった」無差別殺人狙ったか ★3 [樽悶★]
- 【芸能】Koki主演映画『女神降臨』後編公開も盛り上がりゼロ…早くも “黒歴史” 入りの可能性にファン嘆き [jinjin★]
- 【野球】巨人・田中将大 3回8安打3四球3失点で降板… 通算199勝目ならず 中13日登板も、初回にいきなり5連打され捕まる [冬月記者★]
- 【万博】インド館がついにお披露目 イギリス館では5000円“ティーセット”が物議…スコーンが1つ、紅茶は紙コップ [夜のけいちゃん★]
- ひろき、消費税引き下げに文句言う人達に苦言「できない理由を考えるのではなく」 [476167917]
- 🎉ほのかおじさん54歳の誕生日で脛。🏡
- 値上げばかりで辛すぎるから、逆にこの5年で値下がりしたものを教えてくれ [512028397]
- 【GW暇な奴来い】安価で指定されたものを全力で探してうpするスレ
- 【動画】電車でシコってるおじさんに注意した正義マン、シコおじにボコられる💥 [632966346]
- 【悲報】川崎フロンターレのクリ・ロナ擁するアル・ナスル撃破 ACL決勝進出 世界で話題も、日本人はまったく誰も話題にしない… [452836546]