[B! scraping] seikoudoku2000のブックマーク

Passion For The Future: Spidering hacks―ウェブ情報ラクラク取得テクニック101選

Spidering hacks―ウェブ情報ラクラク取得テクニック101選スポンサード　リンク・Spidering hacks―ウェブ情報ラクラク取得テクニック101選 ■スパイダリングのハック本これはGoogleHack以来の技術本で大ヒット！。素晴らしい。クロウラーとかスパイダーと呼ばれるWeb巡回自動ロボットの作り方が実際のコードとともに101個も紹介されている。スパイダーは、Webのリンクをたどりながら、HTMLを取得、解析して、データを取得していく。特定のキーワードがニュース見出しに登場していたら、本文を取得して一覧を作る、だとか、検索エンジンの検索結果数の変化をグラフにするとか、携帯にニュース更新状況をメールするなど、便利なパーソナルエージェントを作ることができるわけだ。目次から、わかりやすい応用例をいくつか紹介すると、・Yahoo! JAPANの新着情報を追跡する

seikoudoku2000 2012/01/12

scraping

リンク

Panopticon :: Python :: BeautifulSoupを触ってみる

ちょっとHTMLをパースする必要があったので、BeautifulSoupを使ってみました。参考にさせていただいたサイトはこちら。あかさかランチにっき: BeautifulSoupによるスクレイピングの練習あかさかランチにっき: 続・BeautifulSoupのスクレイピングの練習 Perl使いのPythonちゃん: BeautifulSoupでHTML解析 Perl使いのPythonちゃん: PythonでGoogleの表示順位を取得特定タグの抽出 >>> from BeautifulSoup import BeautifulSoup >>> import urllib2 >>> url = 'http://www.crummy.com/software/BeautifulSoup/documentation.html' >>> html = urllib2.urlopen(u

seikoudoku2000 2011/11/29

scraping

リンク

Scrapyのおぼえがき - ぬるぽ日記

Python ScrapyはPythonの軽量スクレイピングライブラリです。Scrapy | An open source web scraping framework for Python PythonのスクレイピングライブラリというとBeautifulSoupが一般的なようですが、ちょっと調べてみた感じだと、XPathが分かるならScrapyのほうが簡単っぽいです。 [Tutor] Scrapy vs. Beautiful Soup If you altready know XPath then scrapy would definitely be worth a try, if not I'd stick with BS. スクレイピングの対象とするサイト今回はYahoo!カテゴリを実験に使わせて頂きました。図書館事件みたいなことにはならないよう控えめに…。Yahoo!カテゴリ

seikoudoku2000 2011/11/29

scraping

リンク

Scrapy | A Fast and Powerful Scraping and Web Crawling Framework

pip install scrapy cat > myspider.py <<EOF import scrapy class BlogSpider(scrapy.Spider): name = 'blogspider' start_urls = ['https://www.zyte.com/blog/'] def parse(self, response): for title in response.css('.oxy-post-title'): yield {'title': title.css('::text').get()} for next_page in response.css('a.next'): yield response.follow(next_page, self.parse)EOF scrapy runspider myspider.py

seikoudoku2000 2011/11/29

scraping

リンク

5分でWebスクレイピングをする - YAMAGUCHI::weblog

はじめにあけましておめでとうございます。今年もPython界の江古田ちゃんとして頑張っていく所存です。さて id:nishiohirokazu が5分でPythonは便利だと思える記事を元旦から書いていました。﹁ほえー、さすが西尾さんや﹂って思ってたら、西尾さんが﹁おい山口、5分でPython便利だなーって思える記事書けや﹂っていう無言の圧力をかけてきたので*1 *2なんとなく書きました。﹁5分で﹂っていうのが読者が読む時間なのか、筆者が書く時間なのかがわからなかったので前者ということにしました。5分で記事とコード両方書くとか無理や。こんなことないですか﹁Webでスクレイピングしたいよー、てへへ。だけど文字コードとかがページごとにバラバラでマジしんどいっす。しかもタグ抜き出すのとかめちゃめんどいっす><﹂ってことはあったりしませんか？リンクのタイトルとかも綺麗に抜き出したいなー

seikoudoku2000 2011/11/29

scraping

リンク

Web::Scraper - naoyaのはてなダイアリー

Today I've been thinking about what to talk in YAPC::EU (and OSCON if they're short of Perl talks, I'm not sure), and came up with a few hours of hacking with web-content scraping module using Domain Specific Languages. 使ってみたよ! #!/usr/local/bin/perl use strict; use warnings; use FindBin::libs; use URI; use Web::Scraper; use Encode; use List::MoreUtils qw/uniq/; my $links = scraper { process 'a.key

seikoudoku2000 2011/11/29

scraping

リンク

ブログが続かないわけ | Web::Scraper 使い方(超入門)

3年前にこの本に出会って、僕はスクレーピングの虜になった。おかげで正規表現をたくさん書く機会が得られたし、CPANのモジュールともたくさん触れ合うことができたし、さらに自分自身でも構造化されたHTMLを書く習慣も身についた。ただ、やっぱり、スクレーピングは簡単ではない部分もたくさんあると思う。文字コードについても意識しなければならないし、なにより正規表現で必要な部分を抽出することそのものが結構骨のいる作業だ。HTML::TreeBuilderを使った方がいいのか、それとも正規表現だけでやったほうが楽なのか。そんなことを考慮しながらコーディングして行く。そこがスクレーピングの楽しいところでもあるのだが、そこがスクレーピングの敷居を高いものにしていることも否めない。そんな、愛らしくもあり憎たらしくもあるスクレーピングを簡単にやってしまうのがこのモジュール、Web::Scraper だ。

seikoudoku2000 2011/11/29

scraping

リンク

はてなブックマーク

タグ

関連タグで絞り込む (0)

scrapingに関するseikoudoku2000のブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス