コモン・クロール

出典: フリー百科事典『ウィキペディア(Wikipedia)』
コモン・クロール
企業形態 非営利
創業者 ジル・エルバズ英語版
主要人物 ピーター・ノーウィグノヴァ・スピバック英語版カール・マラマッド英語版カール・ボラッカー英語版伊藤穰一
ウェブサイト commoncrawl.org
対応言語 英語

: Common Crawl501(c)[1][2]2011PB[3][4]

[5][6]Nofollowrobots.txt

[7]

[]


2012Amazon Web Services[8]

7.arc[9].arc[9]

201212blekko2012210[10][10]

2013ApacheNutch使[11]201311.arc使Web ARChive[12]

2020OpenAIGPT-3使[13]

使1使[14]

[]


SURFnet[15][16]

脚注[編集]



(一)^ Rosanna Xia (201225). Tech entrepreneur Gil Elbaz made it big in L.A.. Los Angeles Times. http://articles.latimes.com/2012/feb/05/business/la-fi-himi-elbaz-20120205 2014731 

(二)^ Gil Elbaz and Common Crawl. NBC News. (201344). http://www.pressheretv.com/gil-elbaz-and-common-crawl/ 2014731 

(三)^ So you're ready to get started. 201862

(四)^ Lisa Green (201418). Winter 2013 Crawl Data Now Available. https://commoncrawl.org/2014/01/winter-2013-crawl-data-now-available/ 201862 

(五)^ Startups - Gil Elbaz and Nova Spivack of Common Crawl - TWiST #222. This Week In Startups. (2012110) 

(六)^ Tom Simonite (2013123). A Free Database of the Entire Web May Spawn the Next Google. MIT Technology Review. https://www.technologyreview.com/2013/01/23/253951/a-free-database-of-the-entire-web-may-spawn-the-next-google/ 2014731 

(七)^ Schäfer, Roland. CommonCOW: Massively Huge Web Corpora from CommonCrawl Data and a Method to Distribute them Freely under Restrictive EU Copyright Laws. Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (Portorož, Slovenia: European Language Resources Association (ELRA)): 4501. https://aclanthology.org/L16-1712. 

(八)^ Jennifer Zaino (2012313). Common Crawl To Add New Data In Amazon Web Services Bucket. Semantic Web. 201471. https://web.archive.org/web/20140701235708/http://semanticweb.com/common-crawl-to-add-new-data-in-amazon-web-services-bucket_b27341 2014731 

(九)^ abJennifer Zaino (2012716). Common Crawl Corpus Update Makes Web Crawl Data More Efficient, Approachable For Users To Explore. Semantic Web. 2014812. https://web.archive.org/web/20140812101154/http://semanticweb.com/common-crawl-corpus-update-makes-web-crawl-data-more-efficient-approachable-for-users-to-explore_b30771 2014731 

(十)^ abJennifer Zaino (20121218). Blekko Data Donation Is A Big Benefit To Common Crawl. Semantic Web. 2014812. https://web.archive.org/web/20140812101151/http://semanticweb.com/blekko-data-donation-is-a-big-benefit-to-common-crawl_b34177 2014731 

(11)^ Jordan Mendelson (2014220). Common Crawl's Move to Nutch.  Common Crawl. 2014731

(12)^ Jordan Mendelson (20131127). New Crawl Data Available!.  Common Crawl. 2014731

(13)^ Brown, Tom; Mann, Benjamin (1 June 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]

(14)^ Gebru, Timnit; Morgenstern, Jamie (19 March 2020). "Datasheets for Datasets". arXiv:1803.09010 [cs.DB]

(15)^ Lisa Green (20121115). The Norvig Web Data Science Award.  Common Crawl. 2014731

(16)^ Norvig Web Data Science Award 2014.  Dutch Techcentre for Life Sciences. 20148152014731

外部リンク[編集]