Scrapy
表示
開発元 | Scrapinghub, Ltd. |
---|---|
初版 | 2008年6月26日 |
最新版 | 2.11.2[1] - 2024年5月14日 [±] |
リポジトリ | |
プログラミング 言語 | Python |
対応OS | Windows, macOS, Linux |
種別 | Web crawler |
ライセンス | BSD License |
公式サイト |
scrapy |
Scrapy︵[ˈskreɪpaɪ] SKRAY-peye︶はPythonで開発されたフリーでオープンソースのクロールフレームワーク。元々はウェブスクレイピング用に設計されたが、 APIを使用したデータの抽出や、汎用のクローラーとしても使用できる[2]。現在、ウェブスクレイピングの開発およびサービス会社であるScrapinghub Ltd.で管理されている。
Scrapyプロジェクトアーキテクチャは、﹁スパイダー[要曖昧さ回避]﹂を中心に構築されている。DjangoなどのフレームワークをDRY[3]他の精神を踏襲し、開発者がコードを再利用できるようにしている。
さらに、サイトの動作に関する想定をテストするために開発者が使用できるWebクロールシェルを提供する[4]。
Scrapyを使用している有名な会社と製品には、Lyst[5][6]、Parse.ly[7]、Sayone Technologies[8]、Sciences Po Medialab[9]、Data.gov.ukの世界政府データサイト[10]がある[11]。
Scrapyは、ロンドンを拠点とするアグリゲーターおよびEC会社のMydecoで開発がスタートした。Mydecoは、MydecoおよびInsophia︵ウルグアイのモンテビデオに拠点を置くWebコンサルティング会社︶の従業員によって開発および管理されている。 最初の公開リリースはBSDライセンスに基づく2008年8月で、マイルストーン1.0のリリースは2015年6月に行われた。
2011年に、Scrapinghubが新しい公式メンテナになった[12][13]。
出典[編集]
(一)^ "Release 2.11.2"; 閲覧日: 2024年5月17日; 出版日: 2024年5月14日.
(二)^ Scrapy at a glance.
(三)^ “Frequently Asked Questions”. 2015年7月28日閲覧。
(四)^ “Scrapy shell”. 2015年7月28日閲覧。
(五)^ Bell. “Scalable Scraping Using Machine Learning”. 2015年7月28日閲覧。
(六)^ Scrapy | Companies using Scrapy
(七)^ Montalenti (2012年10月27日). “Web Crawling & Metadata Extraction in Python”. 2020年8月4日閲覧。
(八)^ “Scrapy Companies”. Scrapy website. 2020年8月4日閲覧。
(九)^ Hyphe v0.0.0: the first release of our new webcrawler is out!
(十)^ Ben Firshman [@bfirsh] (2010年1月21日). "World Govt Data site uses Django, Solr, Haystack, Scrapy and other exciting buzzwords bit.ly/5jU3La #opendata #datastore". X︵旧Twitter︶より2020年8月4日閲覧。
(11)^ [1]
(12)^ Pablo Hoffman (2013). List of the primary authors & contributors 2013年11月18日閲覧。
(13)^ Interview Scraping Hub.