並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 37 件 / 37件

新着順 人気順

crawlerの検索結果1 - 37 件 / 37件

  • AIにニュースの収集を任せている方法(GPT-4からSlack投稿) - toyoshiの日記

    キーワードベースで情報収集をしているという下記の記事を読みました。私も似たようなことをしているのですがキーワードは使わない方法でニュースの収集をしていて、そのほうがLLMを活用できていると思うのでその方法を紹介します。 forest.watch.impress.co.jp キーワードではなく自分の目的や関心を伝える 以前私が手動でやっていたのはRSSリーダーにサイトを登録して、記事のタイトルと概要を読んで気になる記事を開いて読むということでした。こういうときに人間はキーワード検索をしていません。何をしているかというと自分の目的や関心があって、それに関連する記事をピックアップするということです。それと同じようなことをさせようというのが今回紹介する方法です。 ポイントは今回の場合は私の所属する会社について情報をプロンプトで与え、それに関連するニュースが何かをLLMに考えさせることです。 今回の

      AIにニュースの収集を任せている方法(GPT-4からSlack投稿) - toyoshiの日記
    • 無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能

      このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 シンガポール国立大学と中国の浙江大学に所属する研究者らが発表した論文「EasySpider: A No-Code Visual System for Crawling the Web」は、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告である。公式ページはこちら。 このシステムは、マウス操作のGUI(Graphical User Interface)を使用して提供されており、コーディングの経験がなくても使えるため、ノンプログラマーでも簡単にタスクを設

        無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能
      • 今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集 - LayerX エンジニアブログ

        皆さんこんにちは。CTOの松本です。LLM使ってますか?ChatGPT毎日触ってますか? LLMに熱狂してすでに1年以上が経ちましたが周辺エコシステムが充実してきたことでいろいろな取り組みがとても簡単に実現出来るようになったなーと感じています。 ということで今回はZapierを使った小ネタのご紹介です。 AI・LLM事業部の今 とその前に、AI・LLM事業部での取り組みから着想を得たものでして、AI・LLM事業部について簡単に紹介させてください。 LayerXの新規事業であるAI・LLM事業部では、バクラクでも取り組んできたビジネス文書の解析の延長としてLLMを活用して文書分析エンジンの開発を進めています。現在このエンジンを使ったエンタープライズ向けの新規プロダクト開発にいそしんでおります。とても楽しいですし、最近は様々なお客様からの引き合いも増えておりまして、事業成長に向けて満を持しての

          今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集 - LayerX エンジニアブログ
        • ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成出来たので感想とコツ - Qiita

          今回やりたかったこと 目標:ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成 するにはどうしたらいいのか、ChatGPT のハードルとかコツとかを知りたい。 ※最終的なプロンプトの入力と出力の全文は本ページ下部に貼り付けてます。 作ったもの概要 保険組合のウォーキングイベントの会社内の3チームの歩数進捗の slack への自動投稿 bot を作成しました。 処理は大きく2つに分かれています。 ウォーキングイベントサイトから歩数をスクレイピング&スプシへアップロード スプシの GAS で投稿文字列作成& slack へ自動投稿 今回 ChatGPT でやったのは1の方です。 2は前回半年前開催分のコードをほぼそのまま流用しました。 運良く(?)今回のタイミングでウォーキングイベントのサービスサイトが変わり、 HTML がまるっと変わり1のスクレイピングコードは作り直しが必

            ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成出来たので感想とコツ - Qiita
          • 小さいプロダクト開発におけるGCP利用の勘どころ - 個人的なプロダクトを三日でローンチした話 - Lean Baseball

            私個人の話なのですが. 最近は仕事でAWSやGCPのサーバレスアーキテクチャにふれる機会が増えた*1と同時に, 自分が気になる世の中のニュース(グルメとかいろいろ)だけをいい感じに集めてまとめて読みたい その中でも特に⚾, 速報とかいい感じに通知させたい という怠け者欲ライフハック欲が高まってきたので, GCP(とちょっとしたPythonスクリプト)でSlack Botを作りました. 趣味開発で雑にはじめた結果, 三日程度でできちゃった*2のでその知見をメモ代わりに残します. おしながき おしながき TL;DR 対象読者 作ったもの GCPをフル活用して実質三日でBotをローンチした Bot本体の開発 GCPの何を使うかで試行錯誤 プランA「GCEを使う」 プランB「Cloud Run + Cloud Scheduler」 採用した構成「Cloud Functions + Cloud Sc

              小さいプロダクト開発におけるGCP利用の勘どころ - 個人的なプロダクトを三日でローンチした話 - Lean Baseball
            • Google's robots.txt Parser is Now Open Source

              The latest news from Google on open source releases, major projects, events, and student outreach programs. Originally posted on the Google Webmaster Central Blog For 25 years, the Robots Exclusion Protocol (REP) was only a de-facto standard. This had frustrating implications sometimes. On one hand, for webmasters, it meant uncertainty in corner cases, like when their text editor included BOM char

                Google's robots.txt Parser is Now Open Source
              • 月間1.6億秒の Lambda x Node.js 利用から得られた知見

                はじめにStockmark のプロダクトでは、各メディアから記事を収集するために AWS Lambda (実行環境はNode.js) を大量に利用しています。「大量」とは実際にはどの程度なのかを紹介すると、月間で 1.6億 秒ほど(1日で約60日分) 使用しています。もしかしたら「えっ、なんでそんなに使っているの?」と思われているかもしれません。 本記事ではその疑問に回答しつつ、実運用から得られた知見を一部共有していきます。段階的に理解いただけるように、技術選定理由から説明していきます。 なぜ Node.js なのか?なぜ AWS Lambdaなのか?Lambda x Node.js でスクレイピングする際の落とし穴ということで、早速1つ目からいってみましょう! なぜ Node.js なのか?ストックマークのプロダクトでは、Web記事などを中心としてスクレイピングして収集した情報をベースに

                  月間1.6億秒の Lambda x Node.js 利用から得られた知見
                • クローラー運用を楽にするためのクラウドサービス比較 - ZOZO TECH BLOG

                  こんにちは!最近気になるニュースはスピノサウルスの尻尾の化石が発見されたこと1な、SRE部エンジニアの塩崎です。ZOZOテクノロジーズの前身となった会社の1つであるVASILYでは数多くのクローラーの開発・運用の担当をしてきました。 今回はその知見を生かして、クローラーを楽に運用するためのクラウドサービスを紹介します。 概要 データ解析を円滑に進めるためには、CSVやWeb APIなどの構造化されたデータが必要です。しかし全てのWebサイトにあるデータが構造化データを提供しているとは限りません。むしろ提供していないケースの方がはるかに多いです。そのため、Webクローラーを作成して構造化されていないWebページを解析し、構造化データを生成する必要があります。 しかし、Webクローラーの運用には数多くの「つらみ」があります。特に大量のWebページを1日1回などの頻度で定期的にクロールする際には

                    クローラー運用を楽にするためのクラウドサービス比較 - ZOZO TECH BLOG
                  • 【悪用厳禁】Torを使ったスクレイピングでIPアドレスを分散させるテクニック – Python | Let's Hack Tech

                    Torをスクレイピングで使いやすくするPythonのモジュール作ってみた TorをPythonスクレイピングに流用しやすくするためのモジュールを作成しました。Torをスクレイピングに流用することによって、IPによる制限を回避することが容易になります。 Torを使ったWebスクレイピング Webスクレイピングに、そのSocksプロキシを流用することで、簡単にIPアドレスを変更することが可能になります。 つまり自分のIPではないIPを使って色んなWEBサイトにBOTアクセスすることが可能になります。 Torを使ったスクレイピングはどういった場合に便利なのか? WEBアクセスの自動化、スクレイピングやBOTアクセスというのは年々、制限が厳しくなっているサイトが増えています。 例えばブックオフオンラインというサイトで、20回ほど連続でF5ボタンを押してみてください。 ブックオフオンラインは割と昔か

                      【悪用厳禁】Torを使ったスクレイピングでIPアドレスを分散させるテクニック – Python | Let's Hack Tech
                    • レンダーバジェットとは何か、あるいはなぜ私は心配するのをやめてサーバーサイドレンダリングを愛するようになったか - ブログ - 株式会社JADE

                      こんにちは、株式会社JADEの長山一石です! 5年ほど前、Google の公式ブログ上で ウェブページをより深く理解するようになりました と言う記事を書きました (英語原本はこちら)。この記事は、検索エンジンが JavaScript を実行し、ウェブページをレンダーすることができるようになったことを告知するもので、当時としては非常に画期的なものだったと言えます。これによりインデックスされていなかった数多くのページが Google に認識されるようになり、ウェブ全体の検索可能性が上がることになりました。最初はインデックスの一部分からはじめて、徐々に範囲を拡大していき、最終的には長らく現役だった AJAX クローリングスキームも無事撤廃することができました。それについても、AJAX クロールに関するスキームを廃止します と言うブログ記事で書きました (英語原本はこちら)。 レンダリングをするボ

                        レンダーバジェットとは何か、あるいはなぜ私は心配するのをやめてサーバーサイドレンダリングを愛するようになったか - ブログ - 株式会社JADE
                      • 【悪用厳禁】AWS Lambda で Tor を使う


                        AWS  Lambda /Headless Chrome (chromium) Tor IP   TypeScript  Tor  Tor Tor  Tor tor使 Chrome Tor tor   Tor 使 MacOS  Homebrew
                          【悪用厳禁】AWS Lambda で Tor を使う
                        • ChromeDriver でよく使うオプションのチートシート - Qiita


                           調 navigator.webdriver  2023.11.20  2023.11.15  2023.11.14 selenium 4  2023.11.14 selenium 3  2022.06.03  2022.04.28 稿 selenium 4   
                            ChromeDriver でよく使うオプションのチートシート - Qiita
                          • OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明

                            米OpenAIは、Webサイト管理者が同社のWebクローラー「GPTBot」によるサイトのデータ収集を回避する方法を紹介した。紹介する文書に日付はないが、米AI専用オンラインメディアMaginativeなどが8月7日(現地時間)、文書を見つけて報じた。 GPTBotは、同社のAIモデルをトレーニングするために公開データを収集するためのWebクローラー。OpenAIはこの文書で、GPTBotのクローリングをブロックする手順を説明している。 Webオーナーがrobots.txtにGPTBotを追加したり、IPアドレスを直接ブロックしたりしないと、ユーザーがWebサイトに入力するデータを含むWebサイトのデータがAIモデルのトレーニングデータとして収集される。 ブロックしなくても、ペイウォールアクセスを必要とするソース、個人を特定できる情報を収集することが知られているソース、ポリシーに違反するテ

                              OpenAI、Webデータ収集クローラー「GPTBot」のブロック方法を説明
                            • 【※絶対に自動化してはいけない】自動化禁止サイトまとめ! - Qiita

                              お久しぶりです! 最近仕事で社内向けにRPA研修を行い、 そこで自動化禁止サイトを少しだけ調べたので共有したいと思います。 自動化禁止サイトのまとめ記事がないのが意外でした...! ※注意:2020年6月24日時点の情報です! ※注意:本記事に掲載していないサイトでも利用規約で自動化を禁止しているサイトはたくさんあります。自動化する前に一度ご確認ください。 Amazon ロボットなどのデータ収集・抽出ツールによる利用は許可されていません。 利用規約に明記されています。 RPAだけでなくプログラミング言語によるスクレイピングもNGだと思われます。 Amazon - 利用規約 - この利用許可には、アマゾンサービスまたはそのコンテンツの転売および商業目的での利用、製品リスト、解説、価格などの収集と利用、アマゾンサービスまたはそのコンテンツの二次的利用、第三者のために行うアカウント情報のダウンロ

                                【※絶対に自動化してはいけない】自動化禁止サイトまとめ! - Qiita
                              • Webサイトのクローラビリティを測るために重要な10のチェックポイント - SEO Japan|アイオイクスのSEO・CV改善・Webサイト集客情報ブログ

                                無料で資料をダウンロード SEOサービスのご案内 専門のコンサルタントが貴社サイトのご要望・課題整理から施策の立案を行い、検索エンジンからの流入数向上を支援いたします。 無料ダウンロードする >> SEOを理解する上での第一歩は検索エンジンの仕組みを知ることであり、それは、クロール・インデックス・ランキングの3ステップに大きく分けることができます。 SEOを考える上では、ついランキングのみに注視しがちですが、その前段階である「クロールとインデックス」にも注意を向けなければなりません。 あなたのサイトはきちんとGoogleに理解されているのでしょうか。その健全性(クローラビリティ)を測る上で重要となる指標をまとめたSearh Engine Journalの記事をご紹介します。 Webサイトのクローラビリティを最適化する目的は、検索エンジンが定期的にクロールに訪れ、新しいコンテンツが発見される

                                  Webサイトのクローラビリティを測るために重要な10のチェックポイント - SEO Japan|アイオイクスのSEO・CV改善・Webサイト集客情報ブログ
                                • GitHub - niespodd/browser-fingerprinting: Analysis of Bot Protection systems with available countermeasures 🚿. How to defeat anti-bot system 👻 and get around browser fingerprinting scripts 🕵️‍♂️ when scraping the web?

                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                    GitHub - niespodd/browser-fingerprinting: Analysis of Bot Protection systems with available countermeasures 🚿. How to defeat anti-bot system 👻 and get around browser fingerprinting scripts 🕵️‍♂️ when scraping the web?
                                  • Apple、SpotlightやSiriのWeb検索情報を収集するWebクローラー「Applebot」をアップデート。新しいユーザーエージェントや検索ランキングについての情報を公開。

                                    AppleがSiriのWebサイト検索候補に使用する情報を集めるWebクローラー「Applebot」の情報をアップデートしています。詳細は以下から。 Appleはインデックス検索機能「Spotlight」や音声アシスタント「Siri」で表示するWeb検索候補の情報を集めるため、2014年頃から「Googlebot」に似た独自のWebクローラー「Applebot」を開発し、各Webサイトのインデックス化やランキングを行っていますが、 2015年05月 ▶ Apple、SiriやSpotlightのWebサイト検索候補に使用する情報を集めるWeb クローラー「Applebot」の情報を公開。 2018年03月 ▶ Apple、SiriやSpotlightのWebサイト検索候補に使用する情報を集めるWebクローラー「Applebot」のカスタムルールを公開。 Appleは現地時間2020年07月

                                      Apple、SpotlightやSiriのWeb検索情報を収集するWebクローラー「Applebot」をアップデート。新しいユーザーエージェントや検索ランキングについての情報を公開。
                                    • 「AI学習に利用するべからず」OpenAIのクローラーをブロックする動き、海外で広がる【やじうまWatch】

                                        「AI学習に利用するべからず」OpenAIのクローラーをブロックする動き、海外で広がる【やじうまWatch】
                                      • GitHub - Florents-Tselai/WarcDB: WarcDB: Web crawl data as SQLite databases.

                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                          GitHub - Florents-Tselai/WarcDB: WarcDB: Web crawl data as SQLite databases.
                                        • Web scraping is legal, US appeals court reaffirms | TechCrunch

                                          Good news for archivists, academics, researchers and journalists: Scraping publicly accessible data is legal, according to a U.S. appeals court ruling. The landmark ruling by the U.S. Ninth Circuit of Appeals is the latest in a long-running legal battle brought by LinkedIn aimed at stopping a rival company from web scraping personal information from users’ public profiles. The case reached the U.S

                                            Web scraping is legal, US appeals court reaffirms | TechCrunch
                                          • AnyPicker - Free Website Scraping Chrome Extension | Web Scraping Online

                                            Scrape With Just A Few Clicks AnyPicker is a powerful yet easy to use web scraper for the chrome browser Add To Chrome For Free

                                            • 『Google検索の仕組み』ヘルプ記事が更新。プライマリ クロール/セカンダリ クロールとは?

                                              [レベル: 初級] 『Google 検索の仕組み』のヘルプ記事を Google は更新しました。 数多くの解説を新たに追加しています。 追加コンテンツの一例 たとえば、詳細版の「クロール」セクションには「プライマリ クロール / セカンダリ クロール」に関する説明が追加されました。 プライマリ クロール / セカンダリ クロール Google は、ウェブサイトのクロールに、モバイル クローラとパソコン クローラの 2 種類のクローラを使用します。各タイプのクローラは、ページにそのタイプのデバイスでアクセスするユーザーをシミュレートします。 Google は、サイトの「メインクローラ」として 1 つのクローラタイプ(モバイルまたはパソコン)を使用します。そのメインクローラで、サイト内のクロール対象ページすべてをクロールします。新しいウェブサイトについては、メインクローラはすべてモバイル クロ

                                                『Google検索の仕組み』ヘルプ記事が更新。プライマリ クロール/セカンダリ クロールとは?
                                              • サイトにアクセスしてきたクローラー・botの情報まとめ – Cosmos and Chaos

                                                行儀の良いものから悪いものまで、日々色々なボットやクローラーがサイトにアクセスしてきます。 この記事では各種クローラーの情報(主にUser-Agent)をまとめました。 見出しのリンク先は各botの説明ページになっています。 量が多いのでページ内検索でUAを探すのがおすすめです。 私はサイトのアクセスログを見て、怪しげなものは定期的にブロックしたりしてサイトが攻撃されるのを防いでいます。 検索エンジン 基本的にブロックしない方が良いです。 しかし中には行儀が悪いものも居るので、流入数と要相談。 ひっそり運営したいサイトならブロックで。 Googlebot おなじみ。Googleにインデックスさせたいならブロックしない様に。 Webマスターツールもあります。 UA一覧などはリンク先にあります。 Bingbot Mozilla/5.0 (compatible; bingbot/2.0; +ht

                                                  サイトにアクセスしてきたクローラー・botの情報まとめ – Cosmos and Chaos
                                                • GitHub - adbar/trafilatura: Python & command-line tool to gather text on the Web: web crawling/scraping, extraction of text, metadata, comments

                                                  Trafilatura is a cutting-edge Python package and command-line tool designed to gather text on the Web and simplify the process of turning raw HTML into structured, meaningful data. It includes all necessary discovery and text processing components to perform web crawling, downloads, scraping, and extraction of main texts, metadata and comments. It aims at staying handy and modular: no database is

                                                    GitHub - adbar/trafilatura: Python & command-line tool to gather text on the Web: web crawling/scraping, extraction of text, metadata, comments
                                                  • Crawler Test Site

                                                    Default description XIbwNE7SSUJciq0/Jyty

                                                    • GitHub - Gerapy/Gerapy: Distributed Crawler Management Framework Based on Scrapy, Scrapyd, Django and Vue.js

                                                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                        GitHub - Gerapy/Gerapy: Distributed Crawler Management Framework Based on Scrapy, Scrapyd, Django and Vue.js
                                                      • 【AWS Lambda(SAM)でつくるクローラー】Crawler Night 2020 Winter

                                                        Lambda(SAM) x Layer でリアルタイムクローリングした知見を発表してきました。 #crawler_night

                                                          【AWS Lambda(SAM)でつくるクローラー】Crawler Night 2020 Winter
                                                        • GitHub - rubycdp/vessel: Fast high-level web crawling Ruby framework

                                                          You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                            GitHub - rubycdp/vessel: Fast high-level web crawling Ruby framework
                                                          • Bashing JSON into Shape with SQLite - Xe Iaso

                                                            Published on 01/04/2022, 1640 words, 6 minutes to read It is clear that most of the world has decided that they want to use JSON for their public-facing API endpoints. However, most of the time you will need to deal with storage engines that don't deal with JSON very well. This can be confusing to deal with because you need to fit a square peg into a round hole. However, SQLite added JSON function

                                                            • 【IT弁護士監修】スクレイピングは違法?法律に基づいて徹底解説 – PigData | ビッグデータ収集・分析・活用ソリューション

                                                              今回は、数々の企業におけるIT関連の案件を扱っていらっしゃる戸田総合法律事務所の中澤弁護士をお招きして、企業が行うWebスクレイピングに潜む法律的観点でのリスクについて解説していただきます。 皆様はじめまして、弊所は埼玉、東京、福岡の三拠点を設け、全国のお客様に対してインターネットやITに関する法律問題に関するアドバイス、紛争解決を提供しております。事務所の代表である私自身は特にインターネット関係の法律問題を専門としています。 どうぞ、よろしくお願いします。

                                                                【IT弁護士監修】スクレイピングは違法?法律に基づいて徹底解説 – PigData | ビッグデータ収集・分析・活用ソリューション
                                                              • 【WordPress】OpenAIからのクローラーをrobots.txtでブロックしてみた【プラグイン】 - ネタフル

                                                                対話型生成AIのChatGPTを提供するOpenAIのクローラーが、あまりよろしくない挙動をしているというのを見かけたので、WordPressのプラグインを用いてrobotsを記述し、OpenAIからのクローラーをブロックしてみたという話です。 OpenAIのクローラーの挙動がよろしくない? 見かけたのはこちらのツイートです。 うちのサイト攻撃されてる? と思ってUA見たらOpenAIからのクローラーだった。 自動BANされまくってるのに無尽蔵のIPアドレスで以ってゲートオブバビロン並みに四方八方から矢継ぎ早にアクセスし続けてくるの、宗旨替えして大嫌いになりそう。 Googleクローラーと違ってメリットもないし。 — バフェット・コード (@buffett_code) October 18, 2023 いずれにせよ学習用に利用されるだけで「Googleクローラーと違ってメリットもない」とい

                                                                  【WordPress】OpenAIからのクローラーをrobots.txtでブロックしてみた【プラグイン】 - ネタフル
                                                                • GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts

                                                                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                    GitHub - scrapinghub/article-extraction-benchmark: Article extraction benchmark: dataset and evaluation scripts
                                                                  • 政治のポータルサイトPolityLinkを作った話|薄井光生

                                                                    この記事は、CivicTech & GovTech ストーリーズ Advent Calendar 2020の10日目の記事です。 PolityLinkとは?PolityLinkは、政治の「原文」へのポータルサイトです。国会や各省庁のサイトなど、色々な場所でバラバラに公開されている情報を、クローラでかき集め分かりやすくまとめ直しています。 どうしてPollityLinkを作ったのか?私はこれまで政治とは無縁の生活を送ってきました。数少ない接点といえば、数年に一度の選挙くらい。ただそれも、信頼できそうな顔のポスターを選ぶだけの味気ないものでした。 そんな私が政治について知りたいと思うきっかけとなったのは、去年の10月、消費税が突如10%に引き上げられた時でした。直前まで何も知らず、驚いたのを覚えています。さらに驚いたのは、増税のタイミングが実は何年も前から法律で決められていたということ。国会で

                                                                      政治のポータルサイトPolityLinkを作った話|薄井光生
                                                                    • 「非倫理的」なAI訓練データセット、削除するだけでは不十分

                                                                      人工知能(AI)の訓練用にはかつて、ネット上のデータを許可なく集められたものが使われた。後に批判され、データセットを撤回する例が相次いだがが、撤回するだけでは問題の解決にはならない。 by Karen Hao2021.08.23 39 3 19 2016年、マイクロソフトは、顔認識の進歩に拍車をかけることを期待して、世界最大の顔データベースを公開した。「MS-Celeb-1M」と呼ぶこのデータベースには、10万人の有名人の顔を撮影した1000万枚の画像が入っていた。しかし「有名人」といっても、その定義は曖昧なものだった。 3年後、研究者のアダム・ハーベイ(Adam Harvey)とジュール・ラプラス(Jules LaPlace)がこのデータセットを精査したところ、ジャーナリスト、アーティスト、活動家、学者など、仕事のためにネット上で活動している多くの一般人が見つかった。彼らはみな、データベ

                                                                        「非倫理的」なAI訓練データセット、削除するだけでは不十分
                                                                      • GitHub - serpapi/google-search-results-python: Google Search Results via SERP API pip Python Package

                                                                        You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                                          GitHub - serpapi/google-search-results-python: Google Search Results via SERP API pip Python Package
                                                                        • デキる人は知っている!Webスクレイピング用のソフト30選 - Qiita

                                                                          元記事:https://www.octoparse.jp/blog/top-30-free-web-scraping-software/ Webスクレピング (Webデータ抽出、スクリーンスクレイピングとも呼ばれます)は、Webからデータを抽出し、Web上の非構造化データをデータベースやスプレッドシートに格納・分析可能な構造化データへの変換するWeb技術です。 Webスクレイピング技術は、Webスクレーパー(Webクローラー)を構築するのによって実現されます。プログラミングについて何も知らない人にとって、この作業は難しいかもしれません。幸いなことに、今では、コーディングをしなくてもWebデータを自動抽出できるスクレイピングソフトは様々です。 これらのソフトは、Chromeのようなブラウザが内蔵され、実際ユーザーのWebサイトとのやり取りをシミュレーションすることによって、ブラウザーにデータ

                                                                            デキる人は知っている!Webスクレイピング用のソフト30選 - Qiita
                                                                          • Building a fast modern dark web crawler :: Aloïs Micard

                                                                            I have been passionated by web crawler for a long time. I have written several one in many languages such as C++, JavaScript (Node.JS), Python, … and I love the theory behind them. But first of all, what is a web crawler? What is a web crawler?⌗ A web crawler is a computer program that browse the internet to index existing pages, images, PDF, … and allow user to search them using a search engine.

                                                                            1