[B! スクレイピング] l-_-llのブックマーク

無料Webクローラー「EasySpider」　プログラミングスキル不要、マウスクリックだけで操作可能

このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア﹁Seamless﹂︵シームレス︶を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: ＠shiropen2 シンガポール国立大学と中国の浙江大学に所属する研究者らが発表した論文﹁EasySpider: A No-Code Visual System for Crawling the Web﹂は、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告である。公式ページはこちら。このシステムは、マウス操作のGUI︵Graphical User Interface︶を使用して提供されており、コーディングの経験がなくても使えるため、ノンプログラマーでも簡単にタスクを設

l-_-ll 2023/07/12

リンク

絶対に画像をダウンロード&スクレイピングさせないWebページを本気で作ってみた - blog.potproject.net

巷で話題になっているこの話題、画像をスクレイピングやダウンロードされたくないということで騒がれています。その話に関しては色々な意見があると思ってますがここでは置いておくとして・・・技術的にやるとしたら実際どれくらい対策できるの？ということが気になったので、自分の知識で出来る限り対策したものを作ってみることにしました。最初に賢い方はわかると思いますが、タイトルは釣りです。絶対に画像をダウンロード&スクレイピングさせないページは存在しません。ソフトウェアにおいて絶対と言う言葉はまず存在しないのです。ブラウザで表示している以上、仕組みさえわかれば技術的には可能です。そのため、﹁元画像のダウンロードとスクレイピングを非常に困難にしたWebページを本気で作ってみた﹂が実際のタイトルかなとなります。とはいえ、この仕組みであれば大多数の人は機械的にスクレイピングすることを諦めるレベルの作

l-_-ll 2023/06/02

リンク

Rust+WASMでWebクローラーのXMLパースを高速化

本記事はストックマークAdvent Calendarの21日目の記事です。はじめにこんにちは、ストックマークの谷本です。ストックマークでは、ビジネス情報に特化したデータプラットフォームを独自に構築しています。本記事では、そのデータプラットフォームの中核であるWebクローラーのパフォーマンスを、Rust+WASMでコスパ良く改善できたという事例を紹介したいと思います。何が問題だったか Webクローラーは、国内外のニュースサイトや企業サイト、ブログを回覧してビジネス情報をデータ化します。そのさい、読み込むSit emapやRSS(これらはXML形式で配信されています[1])のサイズが大きいと解析にかなり時間がかかり、想定していた処理時間を超えてタイムアウトエラーを起こすケースがありました[2]。それが少数のサイトであればまだインパクトは小さいですが、回覧するサイトは日々増えており、W

l-_-ll 2022/10/23

リンク

第662回　Docker+Selenium ServerでWebブラウザ自動操作環境を作る | gihyo.jp

今回は、Selenium ServerによるWebブラウザ自動操作環境を、Ubuntu上にDockerを使って簡単に構築する方法を紹介します。 Webブラウザの自動操作を可能にするSelenium Seleniumは、Webアプリケーションのテストを、人が操作することなく自動で行うために開発されているソフトウェアです。本来は﹁テストの自動化﹂のために開発されたソフトなのですが、Webブラウザを用いて行っている業務の自動化や、Webサイトの情報を自動収集するスクレイピングなどにも使われています。今回、主に紹介するのは﹁Selenium Server﹂を使う方法ですが、他に﹁Selenium IDE﹂というFirefoxおよびGoogle Chrome用の拡張機能も開発・配布されています。Selenium IDEを使えば、デスクトップ環境でWebブラウザの操作を記録し、簡単に再実行させること

l-_-ll 2021/05/02

リンク

Google SpreadSheet のGAS(JavaScript)でスクレイピング(Webデータゲット) - Qiita

Google SpreadSheet はとても便利にWebのデータ取得ができます。どのようにやるのかまとめておきます。 Importxml は不要セルの中身に、=Importxml を記載してワークシート関数を使ったやり方で手軽にデータ取得できますが、そのやり方ではすぐに限界がきます。一番の問題点は、低速すぎることです。シートを開いたときに全件読みにいくので、すぐに遅くなって実用的じゃなくなります。また、他の問題点としては、細かな制御ができないこと、です。軽く何か試しに動かすなら Importxml を使うのもいいのですが、実用的なものを作ろうとすると限界があります。ですので、SpreadSheet のマクロとして使える Google Apps Script(GAS) と呼ばれる、JavaScript を使ってデータを取得します。このあたりは、Excelのワークシート関数を使

l-_-ll 2020/09/06

「Importxml は不要」

リンク

[サーバレス] Googleスプレッドシートでスクレイピング - Qiita

スクレイピングがやりたかったんだけど、サーバの管理がめんどくさくなったので、Googleスプレッドシートの上でスクレイピングを出来るようにした。やりたいこと献血で、400mlAB型の血液が不足してます、A型は今大丈夫です、みたいな情報が、献血センターのwebサイトに掲載されるようになった。たとえば宮城県赤十字血液センターの今週の献血状況。AB型の人は成分献血にするか、次の機会にしたほうが良いらしい。これ以外の県も、各県の献血センターに掲載されているこういう情報をオープンにしてくれたのはとてもうれしいことなんだけど、webページに掲載されたって、ぼくらがわざわざ見に行かない限り気が付かない。できればこう、SNSで﹁今週の献血状況﹂みたいなことを発表してくれるといいよね。そしたら、﹁あ、AB型足りない？今週は余裕があるからじゃあぼく行くね﹂みたいなことが出来ていいと思うのよ。ない

l-_-ll 2020/09/06

cheerioは、jQueryぽい文法でHTMLをパースすることが出来るnode.jsライブラリ。ブラウザじゃなくてもjQueryぽくHTMLを解析できるので、スクレイピングのときに便利。

リンク

Node.js でお手軽スクレイピング 2020 年夏 - Qiita

皆さんは Web ページのスクレイピングって書いた事ありますか？私はあります。だってどんなに平和で平穏な生活を送っていても数年に一度はスクレイピングってしたくなりますよね。﹁うわーまじか！API ないのかよ…。﹂的な。そうしたら HTTP クライアントと HTML パーサのライブラリを探してきてインストールした上でごりごり書くことになると思います。でも実際に書いてみると、そうやってライブラリのインストールをしたりサンプルコードで動作確認している時間よりも、HTML を解析して実際にパースしたところから対象の要素を取得して欲しい値を取り出す試行錯誤の時間の方が長かったっていう事はないですか？今日ご紹介する Node.js でお手軽スクレイピングは、その辺の試行錯誤の手間を極力減らすことが出来る方法です。2020 年夏の最新版です。まずは環境から。特に古いものを使う理由もないので 202

l-_-ll 2020/07/23

スクレイピング

リンク

Pythonを使ってみよう～Webスクレイピングに挑戦し初歩を学ぶ～｜ハイクラス転職・求人情報サイト AMBI（アンビ）

Pythonを使ってみよう～Webスクレイピングに挑戦し初歩を学ぶ～話題のPythonを使って学んでみましょう！今回はWebスクレイピングにトライし、その初歩を学びます。 Pythonの最初のバージョン(0.9)は、1991年に登場しました。C#の登場が2000年なので、Pythonの歴史は意外に古い印象です。本稿を執筆している2018年3月時点でのPythonのバージョンは3で、バージョン2とは、かなり仕様が異なります。本稿では、Python3を使用します。さて、Pythonの特長は、簡潔な言語仕様と、学習のしやすさです。筆者は、これまでC++など、多くのコンピュータ言語を使用してきました。C++などに比べて、Pythonは同じことをするにも、少ないコード量で済み、また学習する時間も節約できます。何らかのコンピュータ言語をすでに使える人であれば、1日勉強すれば、ある程度、Pytho

l-_-ll 2019/07/28

リンク

PythonでWeb APIを利用し、データを収集する方法【おすすめのAPIも紹介します】 | Dividable

先に結論から。Youtubeのチャンネル登録をして、この動画を見ればPythonで自動化できることが分かりやすく解説しているので、これを見れば一発です。 ※追記 2019年6月7日これ以外にもプログラミングの解説動画があるので、ぜひ以下のリンクからチャンネル登録して、ほかの動画も見てみてください！ Youtubeでチャンネル登録して動画を見てみる Pythonでは、Web APIを利用すると、データの自動収集ができるようになります。しかし、Web APIと言われてもよくわからないですよね。今回は、 PythonでAPIを利用する方法を知りたい。どうやったら呼び出すことができるの？ Pythonで使えるAPIってどんなものがあるの？ PythonのAPIを使えるようになるためには、どうすればよいの？という疑問に答えられるよう、PythonでWeb APIを利用する方法について詳しくまとめ

l-_-ll 2018/10/28

リンク

Python + Selenium で Chrome の自動操作を一通り（ログイン、ダウンロード、他）

はじめに Python + Selenium + Chrome で、要素の取得、クリックなどの UI系の操作、待機、ページ全体のスクリーンショットなど、一通り試してみます。 PhantomJS はもう更新されないということなので、ブラウザは Chrome にします。この記事には、Selenium の API に関する情報と Chrome に特化した情報がありますが、前者の Selenium の使い方に関する情報は Firefox など別のブラウザでも使えます。注意事項ウェブの自動テストやスクレイピングで使われる技術です。特にスクレイピングでは、著作権の問題や、サーバー側の負荷、各種規約︵会員としてログインする場合の会員規約等︶やマナーなどを考慮する必要があります。たとえば、Twitter など利用規約で明示的にスクレイピングが禁止されていることや、robot.txt などでクローリ

l-_-ll 2018/10/15

リンク

【裏技】みんな知らないログイン必須ページの爆速スクレイピング【モテるシェル芸】 - ps aux | grep serinuntius

おはようございます。裏技ってつけると急にワザップ感が出て、懐かしいですよね〜。こないだ飲み会で同期とそんな話をしておりました。本題ログインが必要なWebサイトで画像を引っこ抜いて欲しいという依頼があり、スクリプトを書くかな〜と迷ったんですが、よく考えたらシェル芸だけで出来るな〜と思ったので共有したいと思います。今回はデザイナーにGitHubのIssueに貼ってある画像200枚以上をzipで欲しいって言われたので、それを題材にします。環境 Chrome curl grep egrep やり方 1. Chromeでおもむろにデベロッパーツールを開く Macなら Shift + Cmd + c等で開けます。 2. networkを選択するそのページのリクエストを見つけるたぶん、一番上のはず。 3. 右クリックして、Copy as cURLを選択今回の肝はこれで、ブラウザで送った

l-_-ll 2018/07/21

リンク

Webブラウザの操作をJavaScriptで自動化。Headless Chromeのフレームワーク「Puppeteer」がバージョン1.0に到達。ChromeのDevToolsチームが開発

UIを持たずスクリプトから操作可能なWebブラウザのHeadless Chromeを利用するためのフレームワーク﹁Puppeteer﹂がバージョン1.0に到達した。Webアプリケーションの自動テストなどに利用可能だ。 GoogleのWebブラウザ﹁Chrome﹂は、ユーザーインターフェイスを持たずコマンドラインやリモートデバッグ機能を通じてWebブラウザを操作できる﹁Headless Chrome﹂機能を備えています。この機能は2017年6月にリリースされた﹁Chrome59﹂から実現されたものです。 Headless Chromeを利用すると人間がWebブラウザをマウスやキーボードで操作することなく、プログラムでHeadless Chromeを起動し、特定のWebページを読み込み、画面キャプチャの取得や、指定された場所をクリックし、値を入力し結果を取得する、といった操作を自動的に行わせ

l-_-ll 2018/04/04

リンク

JavaScript実行後のHTMLをGASで取得する - Qiita

はじめに Google Apps Script(GAS)でJavaScript実行後のHTMLソースを取得(Webスクレイピング)するのに一手間かかったのでメモ。 GASだと以下のコードでHTMLが取得できます。 var url = "http://example.com"; var response = UrlFetchApp.fetch(url).getContentText(); が、これだとJavaScript実行前のHTMLが返却されます。例えば、あるキーワードを検索し結果が反映されたHTMLは取得できません。そこでPhantomJs Cloudを利用します。 PhantomJs Cloud A web-browser hosted as a service, using PhantomJs online (Chrome) to render your javascript

l-_-ll 2018/03/11

PhantomJs online JavaScript実行後のWebサイトを画像やisonなどの形式で取得してくれるWebサービスです。

リンク

GitHub - kennethreitz/requests-html: Pythonic HTML Parsing for Humans™

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

l-_-ll 2018/02/28

Full JavaScript support! Mocked user-agent (like a real web browser).

リンク

Python Webスクレイピングテクニック集「取得できない値は無い」JavaScript対応@追記あり6/12 - Qiita

この記事について本記事はPythonを使ったWebスクレイピングのテクニックを紹介します。 ※お酒飲みながら暇つぶしで書いたので割と適当です。今回紹介するテクニックを使えれば経験上大体どんな値でも取得でき、これらはRubyだろうがGolangだろうが同じ様に動作します。 Webスクレイピングが出来ないサイトがあればコメントにて教えてください。全身全霊を持ってやってみます。また、Webスクレイピングをしたことが無い方は下記の記事を読むことをお勧めします。 Python Webスクレイピング実践入門 - Qiita追記更新 6/12 コメントに対応しました。はじめに注意事項です。よく読みましょう。岡崎市立中央図書館事件(Librahack事件) - Wikipedia Webスクレイピングの注意事項一覧

l-_-ll 2018/02/25

リンク

記事生成自動化のススメ - プロクラシスト

こんにちは！ほけきよです。自分できちんとした(？)文章を書くのは久しぶりです。それまで何をしていたかというと自動記事生成のためのプログラム書いたり、泥臭いHTMLの調整したりしていました。ある程度まとめて仕上げたくてね。それもだいぶ落ち着いてミニサイト風にすることができたと思います。今回は、自動生成記事を作ってみての気づきをまとめておこうと思います。サイトマップもよければみてね:amazonセール情報、おすすめ商品まとめウェブ上の自動販売機にしたかったテンプレート+自動情報収集のススメ時間を割く箇所が変わる見せられる情報にするまでの泥臭さ自動情報収集により、UIに全振りできる Googleのスパム判定... 検索順位監視中使った技術まとめウェブ上の自動販売機にしたかったもともとのモチベーションは、新鮮で有益な情報を自動で集め、更新する記事をいくつか作ることでした

l-_-ll 2017/11/14

リンク

あらためてRuby製のクローラー、"anemone"を調べてみた - プログラマでありたい

3年ほど前に、Ruby製のクローラー"anemone"を紹介しました。その当時から完成度が高く、Rubyでクローラーを使う場合はanemoneを利用してきました。最近、他に新しくて良いのがないか調べましたが、機能面の網羅性という意味でanemoneを超えるものは見つけられませんでした。そこで改めてanemoneのソースを読んでみたところ、クローラーが必要とする機能を必要最小限で実装され、やはり中々良い出来です。冬休みの宿題ではないですが、勉強の意味を兼ねてソースを追っていくことにします。Anemoneが利用しているライブラリ一覧anemoneが利用しているライブラリは、4種類に分類できます。 Ruby標準or一般的なライブラリデータ取得で利用しているライブラリデータ解析で利用しているライブラリデータ保存で利用しているライブラリこの分類別に構造をみるとわかりやすいので、順番に追っ

l-_-ll 2017/11/13

リンク

機械学習を使って東京23区のお買い得賃貸物件を探してみた　〜スクレイピング編〜 - データで見る世界

こんにちは、Shoです。今年の6月にミシガン大学ロスを卒業し、晴れてMBAホルダーとなりました。12月までは大学に残って機械学習の研究をしているのですが、いよいよ帰国の時が近づいてまいりました。来年の頭から東京に戻るので、どのへんに住もうかなぁと思案しておるところです。しかし住居選びというのは考えなければいけない要因が多くて大変ですね。なるべくお買い得な物件を選びたいところですが、どの区がいいのか、広さはどのくらいの部屋にしようか、2LDKと3Kだとどっちがいいの？とか、これは人間の頭で考える案件ではありませんね。コンピューターができることは全部自動化してしまいたい。ということで、やってみました。機械学習を使って東京23区のお買い得賃貸物件を探してみた物件情報サイトは色々ありますが、今回はSuumoさんを選択。著作権に関しては、利用規約に以下のように書いてあります。﹁ユーザー

l-_-ll 2017/11/09

リンク

--headless時代の本命？ Chrome を Node.jsから操作するライブラリ puppeteer について - Qiita

--headless時代の本命？ Chrome を Node.jsから操作するライブラリ puppeteer についてJavaScript Chromee2e puppeteer はHeadless Chrome をNode.jsで操作しやすくしたライブラリです。今日(※ 2017/8/17)一日で凄い勢いでGitHubのトレンド入りしており、TLでも話題になっていたので、早速触ってみました。 Node.jsでChromeを操作するというコンテキストにおいては、Nightmare.jsと同じレイヤに属するプロダクトですね。Nightmare.jsはElectronを介在させることで、Chromeの操作を実現していましたが、今年の5月にChromeでheadlessモードが利用可能になって以降1、headless Chromeを直接操作するライブラリが色々と出始めていますね。この系統は、chr

l-_-ll 2017/10/23

リンク

Google SpreadSheet で手軽にデータ取得 - Tbpgr Blog

Google SpreadSheet で手軽にデータ取得する方法をまとめます。 ※個人メモとしての記事で、既出情報です IMPORTDATA サンプル IMPORTFEED サンプル IMPORTHTML サンプル IMPORTRANGE サンプル IMPORTXML サンプル IMPORTDATA 指定URLのデータをCSV,TSV形式でインポートする IMPORTDATA - Google ドキュメントエディタヘルプサンプル都道府県データのCSVを取得します都道府県データ - tbpgr/sample_data - GitHub =IMPORTDATA("https://raw.githubusercontent.com/tbpgr/sample_data/master/prefectures.csv") IMPORTFEED RSS フィードや Atom フィードをインポー

l-_-ll 2017/08/04

スクレイピング

リンク

はてなブックマーク

タグ

関連タグで絞り込む (27)

スクレイピングに関するl-_-llのブックマーク (42)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス