[B! scrape] makoto15のブックマーク

makoto15 id:makoto15

scrapeに関するmakoto15のブックマーク (2)

ヘッドレスブラウザ(Chrome)を使ってSPAをスクレイピングする - Qiita
一般的なスクレイピング手法とその問題点スクレイピングというと、HTTPクライアントライブラリを用いてHTML取得し、HTML/XMLパーサーで解析するというのが一般的だと思います。この手法の場合、以下の場合にうまく処理できません。ターゲットのページがJavaScriptにより動的にDOMを操作する場合 HTML/XMLパーサーが取得したHTMLを正しく解釈できない場合(正しくないHTMLでもブラウザはなんとか処理するが、パーサーライブラリは正確なHTMLでないと処理できないことがある) 特に問題になるのは前者でしょう。最近のWebサイトではJavaScriptでDOMを操作することは珍しくなくなってきています。SPAであればなおさら難しく、もはやこういった手法によるスクレイピングは不可能でしょう。ヘッドレスブラウザによるスクレイピング動的なDOMやパーサーがうまく解釈できないとい
makoto15 2017/07/04
scrape
リンク
PythonでWebスクレイピングする時の知見をまとめておく - Stimulator
- はじめに - 最近はWebスクレイピングにお熱である。趣味の機械学習のデータセット集めに利用したり、自身のカードの情報や各アカウントの支払い状況をスクレイピングしてスプレッドシートで管理したりしている。最近この手の記事は多くあるものの﹁～してみた﹂から抜けた記事が見当たらないので、大規模に処理する場合も含めた大きめの記事として知見をまとめておく。追記 2018/03/05‥ 大きな内容なのでここに追記します。 github.com phantomJSについての記載が記事内でありますが、phantomJSのメンテナが止めたニュースが記憶に新しいですが、上記issueにて正式にこれ以上バージョンアップされないとの通達。記事内でも推奨していますがheadless Chrome等を使う方が良さそうです。 - アジェンダ - 主に以下のような話をします。 - はじめに - - アジェンダ
makoto15 2017/06/26
python

scrape

selenium
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx