[B! scraping] kura-2のブックマーク

[ruby] RubyでHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize - Greenbear Diary (2007-02-05)

■ [ruby] RubyでHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize 今日は、RubyでWebサイトを解析するときに強い味方となるライブラリ、HpricotとWWW::Mechanizeを紹介します。どちらも非常に強力なので、覚えておいて損はないよ！以下ではまずHpricotでHTMLを解析・編集する方法について解説します。次に、﹁はてなダイアリーの自動更新﹂を例にWWW::Mechanizeの使い方を解説します。 Hpricot HpricotはHTMLを解析するためのライブラリです。例えば﹁あるページのリンクだけを全部抜き出したい﹂と思ったとき、どうしますか？scrAPIを使う？でもscrAPIはやっぱりちょっと使いたいだけなのにパーザ(Scrape)用のクラスを定義するのが面倒なんだよね！ Hpricotなら、たったこれだけで

kura-2 2012/11/19

リンク

RubyのMechanizeのreferer隠せないよ問題 - きたももんががきたん。

ネイルで使う材料で、DIY時の木割れやネジ跡を派手にしたらかわいい OSB合板でちょっとしたボックスをつくりました。ビス止め下手すぎて木を割ったり穴あけすぎたりした場所に、好きな派手色の樹脂を詰めてパテ代わりにしてみました。ちょっと某HAYっぽみ出て可愛かったので、自分用にメモです。手順塗装派手色グミジェルで失敗部分…

kura-2 2012/11/19

リンク

CHANGELOG

Mechanize examples Note: Several examples show methods chained to the end of do/end blocks. Do…end is the same as curly braces ({…}). For example, do … end.submit is the same as { … }.submit. Google require 'rubygems' require 'mechanize' a = Mechanize.new { |agent| agent.user_agent_alias = 'Mac Safari' } a.get('http://google.com/') do |page| search_result = page.form_with(:name => 'f') do |search|

kura-2 2012/11/19

リンク

『Ruby & Mechanize で Yahoo! Auction のアクセス数自動記録』

今日は、プログラミング言語Rubyの話です。 Rubyは、日本人が開発したプログラミング言語として、世界的に広まって最も成功した言語であると言えると思います。スクリプト言語として有名なものにPerlやPHPがありますが、Rubyもそれらの言語に劣らない魅力があります。ファイルの自動編集、ネット上のデータの自動取得＆解析などなど、いろいろなことに使える便利な言語で、私も最近習い始めました。 Ruby に Mechanize というライブラリを併用して、Yahoo! Japan に自動ログイン後、オークションのアクセス数を1分毎に自動記録するためのスクリプトを書きましたので、そのソースコードを公開します。ソースコードは、自由に改変して使って頂いても構いません。ログイン時に、Hidden タグに JavaScript で値をセットする必要があるため、JavaScript に対応していない

kura-2 2012/11/19

リンク

はてなグループの終了日を2020年1月31日(金)に決定しました - はてなの告知

はてなグループの終了日を2020年1月31日(金)に決定しました以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記はてなグループ日記のエクスポートデータは2020年2月28

kura-2 2012/11/19

リンク

Rubyのmechanizeを利用したファイルダウンロードの自動化について - OKWAVE

初めて質問します。よろしくお願いいたします。 Rubyのmechanizeを利用し、form内のダウンロードボタンをクリックして、ファイルをダウンロードする処理を記載したいのですが、ファイルをローカルマシンに保存する方法がわかりません。ご存知の方がいらっしゃいましたら、ご教授頂ければと思います。よろしくお願いいたします。 ↓↓↓以下、コードです。↓↓↓ require 'rubygems' require 'mechanize' require 'kconv' #初期設定 fname = 'test.csv' csv_file = File.open(fname,'w') # インスタンス生成 agent = WWW::Mechanize.new # User-Agentの設定 agent.user_agent_alias = 'Windows IE 6' # ページ取得site

kura-2 2012/11/19

リンク

超手抜き版　はてなダイアリーライター(ruby版)を作ってみた。 - 生活。

WWW::mechanizeが面白そうだったので作ってみました。参考サイトはhttp://mono.kmc.gr.jp/~yhara/d/?date=20070205#p01です。というかサンプルコードほとんどそのまんまです。手元にあるテキストファイルを自分のダイアリーに投稿できます。お気に入りのエディタで書いてスクリプトで投稿みたいなことが簡単にできるわけです。インストール方法 WWW::mechanizeがひつようです。gemでインストールしましょう。 gem install mechanize 僕もはまったのですがmechanize内部でnet/httpsを使ってるらしくlibopenssl-rubyをインストールする必要があります。 ubuntuなら sudo apt-get install libopenssl-ruby もちろん以下のスクリプトもダウンロード:-) 使いか

kura-2 2012/11/19

リンク

class Mechanize - mechanize-2.3 Documentation

The Mechanize library is used for automating interactions with a website. It can follow links and submit forms. Form fields can be populated and submitted. A history of URLs is maintained and can be queried. Example require 'mechanize' require 'logger' agent = Mechanize.new agent.log = Logger.new "mech.log" agent.user_agent_alias = 'Mac Safari' page = agent.get "http://www.google.com/" search_form

kura-2 2012/11/19

リンク

Mechanize::Page - Ruby Mechanize wiki (ja)

Ruby Mechanize wiki (ja) Ruby の Mechanize の wiki のよていトップページページ一覧メンバー編集 Mechanize::Page 最終更新‥kitamomonga 2010年10月16日(土) 16:33:09履歴 Tweet Mechanize::Page ﹁サーバから取得した HTML﹂を表すクラスです。サーバから取得したファイルが HTML、XHTML、WAP だったときに返り値にこのクラスのオブジェクトが使用されます。 HTML 構造を解析した結果を内部で保持しています。フォームを条件で探して操作したいときは #form_withメソッドを、 # <form name="f1"> なフォームを探してブロックに渡す agent.page.form_with(;name => 'f1'){|form| form.... リンクを条件で

kura-2 2012/11/19

リンク

RubyのMechanizeを解説 for 1.0.0 - きたももんががきたん。

来年も作りたい！ふきのとう料理を満喫した　2024年春の記録春は自炊が楽しい季節1年の中で最も自炊が楽しい季節は春だと思う。スーパーの棚にやわらかな色合いの野菜が並ぶと自然とこころが弾む。中でもときめくのは山菜だ。早いと2月下旬ごろから並び始めるそれは、タラの芽、ふきのとうと続き、桜の頃にはうるい、ウド、こ…

kura-2 2012/11/19

リンク

Mechanizeで　uninitialized constant WWW (NameError)　と出たけど対応した - shikaku's blog

agent = WWW::Mechanize.newを agent = Mechanize.newにしたら治った。

kura-2 2012/11/19

リンク

Ruby Scraping - FrontPage

RubyによるWeb Scrapingライブラリの情報をまとめるためのWikiです。 Nokogiri HTMLをjQuery風に操作するライブラリ。Hpricotの書き直し版 Hpricot HTMLを「Rubyらしく」扱うライブラリ Mechanize Webサイトへ自動でアクセスするためのライブラリ scRUBYt! DSLを使って簡単にスクレイピングを行うライブラリ feedalizer htmlからRSSフィードを作るのに役立つライブラリ scrAPI パーサを定義することでHTMLを解析するライブラリウェブサイトから必要なデータを抽出すること。(Scrape = 削り取る) ライブラリによっては、受信したデータの解析だけでなくデータの送信にも対応している。例： RSSを配信していないウェブサイトのHTMLをスクレイピングして野良RSSを作る Googleの検索結果をスクレイ

kura-2 2012/11/19

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

scrapingに関するkura-2のブックマーク (12)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス