並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 453件

新着順 人気順

crawlerの検索結果1 - 40 件 / 453件

  • AIにニュースの収集を任せている方法(GPT-4からSlack投稿) - toyoshiの日記

    キーワードベースで情報収集をしているという下記の記事を読みました。私も似たようなことをしているのですがキーワードは使わない方法でニュースの収集をしていて、そのほうがLLMを活用できていると思うのでその方法を紹介します。 forest.watch.impress.co.jp キーワードではなく自分の目的や関心を伝える 以前私が手動でやっていたのはRSSリーダーにサイトを登録して、記事のタイトルと概要を読んで気になる記事を開いて読むということでした。こういうときに人間はキーワード検索をしていません。何をしているかというと自分の目的や関心があって、それに関連する記事をピックアップするということです。それと同じようなことをさせようというのが今回紹介する方法です。 ポイントは今回の場合は私の所属する会社について情報をプロンプトで与え、それに関連するニュースが何かをLLMに考えさせることです。 今回の

      AIにニュースの収集を任せている方法(GPT-4からSlack投稿) - toyoshiの日記
    • ツイッター上でウクライナ政府をネオナチ政権だと拡散しているのは誰か(鳥海不二夫) - エキスパート - Yahoo!ニュース

      2022年2月24日にロシア軍がウクライナに侵攻しました. 3月7日現在いまだ侵攻は続いており,一般市民にも多くの死傷者が出ているということで早期の収束を願うばかりです. ロシア側はウクライナへの侵攻の正当性として,ウクライナ政権はネオナチ政権であるという主張をしているようです. プーチン氏は安全保障会議で「我々はまさにネオナチと戦っている」と述べ、ウクライナ政府側をネオナチ扱いした。 https://mainichi.jp/articles/20220304/k00/00m/030/061000c 日本のマスメディアでこの主張を入れているところはあまりないようですが,ソーシャルメディア上ではこの主張に沿ってロシアの侵攻を正当化しているグループもあるようです. ロシアによるウクライナ侵攻について、日本では「単なる思い込みによる誤解」から「めちゃめちゃな陰謀論」まで、ツイッターのみならず、ウ

        ツイッター上でウクライナ政府をネオナチ政権だと拡散しているのは誰か(鳥海不二夫) - エキスパート - Yahoo!ニュース
      • 【AWS】ぼくのかんがえたさいきょうの運用・監視構成 - Qiita

        AWSのインフラを運用・監視する上で使いやすいと思ったサービスを組み合わせて構成図を作成しました。それぞれのサービスの簡単な説明と類似サービスの紹介、また構成の詳細について説明していきます。 (開発で使用するようなサービスも紹介しますが、あくまでも運用・監視だけの構成です。) 各個人・企業によって環境は違うと思いますし、使いやすいと思うサービスは人それぞれだと思うので、これが正解という訳ではありませんが、参考にしてただければ幸いです。 参考になった教材を紹介した記事も作成しました。是非読んでみてください! 【AWS】さいきょうの運用・監視構成を作成するのに参考になった書籍 インフラエンジニア1年生がプログラミングを勉強するのに使った教材 全体図 こちらがAWSにおける"ぼくのかんがえたさいきょうの"運用・監視構成です。複雑で分かりづらいかと思うので、詳細に説明していきます。最後まで読めばこ

          【AWS】ぼくのかんがえたさいきょうの運用・監視構成 - Qiita
        • 無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能

          このコーナーでは、2014年から先端テクノロジーの研究を論文単位で記事にしているWebメディア「Seamless」(シームレス)を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 Twitter: @shiropen2 シンガポール国立大学と中国の浙江大学に所属する研究者らが発表した論文「EasySpider: A No-Code Visual System for Crawling the Web」は、Excelを使用するように視覚的にWebスクレイピングタスクを設計し、実行できるカスタマイズ可能なWebクローラーシステムを提案した研究報告である。公式ページはこちら。 このシステムは、マウス操作のGUI(Graphical User Interface)を使用して提供されており、コーディングの経験がなくても使えるため、ノンプログラマーでも簡単にタスクを設

            無料Webクローラー「EasySpider」 プログラミングスキル不要、マウスクリックだけで操作可能
          • AWSでの法令に則ったログ設計及び実装/分析 - Adwaysエンジニアブログ

            エージェンシー事業でリードアプリケーションエンジニアを行なっている大窄 直樹 (おおさこ)です. AWSのログ, サーバーのログってたくさん種類があって難しいですよね... 同じようなログがたくさんあるので, 何を取れば良いのかとか どのくらいの期間保持すれば良いのかとか またその後の, ログの実装や, 分析方法する方法も難しいですよね... 今回AWSに構築した商用アプリケーションのログを整備する機会があったので, このことについて書こうかなと思います. 概要 本題に入る前の準備 今回ログ実装するアーキテクチャ ログに関する法令 ログの取得箇所 設計 保管するログの決定 インフラのログ OSのログ アプリケーションのログ ログの保管 保管場所について 保管期間について バケット構造 アプリケーション, OSのログの転送 実装 アプリケーション, OSのログをfluentbitを用いてS3

              AWSでの法令に則ったログ設計及び実装/分析 - Adwaysエンジニアブログ
            • 今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集 - LayerX エンジニアブログ

              皆さんこんにちは。CTOの松本です。LLM使ってますか?ChatGPT毎日触ってますか? LLMに熱狂してすでに1年以上が経ちましたが周辺エコシステムが充実してきたことでいろいろな取り組みがとても簡単に実現出来るようになったなーと感じています。 ということで今回はZapierを使った小ネタのご紹介です。 AI・LLM事業部の今 とその前に、AI・LLM事業部での取り組みから着想を得たものでして、AI・LLM事業部について簡単に紹介させてください。 LayerXの新規事業であるAI・LLM事業部では、バクラクでも取り組んできたビジネス文書の解析の延長としてLLMを活用して文書分析エンジンの開発を進めています。現在このエンジンを使ったエンタープライズ向けの新規プロダクト開発にいそしんでおります。とても楽しいですし、最近は様々なお客様からの引き合いも増えておりまして、事業成長に向けて満を持しての

                今日から始めるChatGPT+Zapierで雑パーソナライズ情報収集 - LayerX エンジニアブログ
              • ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成出来たので感想とコツ - Qiita

                今回やりたかったこと 目標:ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成 するにはどうしたらいいのか、ChatGPT のハードルとかコツとかを知りたい。 ※最終的なプロンプトの入力と出力の全文は本ページ下部に貼り付けてます。 作ったもの概要 保険組合のウォーキングイベントの会社内の3チームの歩数進捗の slack への自動投稿 bot を作成しました。 処理は大きく2つに分かれています。 ウォーキングイベントサイトから歩数をスクレイピング&スプシへアップロード スプシの GAS で投稿文字列作成& slack へ自動投稿 今回 ChatGPT でやったのは1の方です。 2は前回半年前開催分のコードをほぼそのまま流用しました。 運良く(?)今回のタイミングでウォーキングイベントのサービスサイトが変わり、 HTML がまるっと変わり1のスクレイピングコードは作り直しが必

                  ChatGPT(GPT-4) で一撃でスクレイピングするコードを生成出来たので感想とコツ - Qiita
                • 法人運営型右派アカウントDappiのツイートは不自然な拡散をしていたか(鳥海不二夫) - エキスパート - Yahoo!ニュース

                  衆議院選挙も間近という10月の頭に,ツイッターの有名右派アカウントは「自民党」取引企業? 立民・小西議員が名誉毀損で提訴というニュースが流れました. 事の発端は小西ひろゆき議員の以下のツイートです. 小西議員に名誉棄損ツイートを繰り返していたアカウント(@dappi2019)の発信者情報開示を受けたところ,このアカウントの持ち主が法人らしいということが判明したわけです. これまでも,政治的活動を行うアカウントには金銭の授受が発生しているという話は多数ありましたが,法人が運営しているアカウントらしいということで大きな話題になりました. では,このdappi2019というアカウントはどのようなアカウントだったのでしょうか.ツイート内容については元の記事に詳しいため,ここではその行動パターンについて分析してみましょう. 3行でまとめると・dappi2019の運営企業はあんまりブラックではなさそう

                    法人運営型右派アカウントDappiのツイートは不自然な拡散をしていたか(鳥海不二夫) - エキスパート - Yahoo!ニュース
                  • 小さいプロダクト開発におけるGCP利用の勘どころ - 個人的なプロダクトを三日でローンチした話 - Lean Baseball

                    私個人の話なのですが. 最近は仕事でAWSやGCPのサーバレスアーキテクチャにふれる機会が増えた*1と同時に, 自分が気になる世の中のニュース(グルメとかいろいろ)だけをいい感じに集めてまとめて読みたい その中でも特に⚾, 速報とかいい感じに通知させたい という怠け者欲ライフハック欲が高まってきたので, GCP(とちょっとしたPythonスクリプト)でSlack Botを作りました. 趣味開発で雑にはじめた結果, 三日程度でできちゃった*2のでその知見をメモ代わりに残します. おしながき おしながき TL;DR 対象読者 作ったもの GCPをフル活用して実質三日でBotをローンチした Bot本体の開発 GCPの何を使うかで試行錯誤 プランA「GCEを使う」 プランB「Cloud Run + Cloud Scheduler」 採用した構成「Cloud Functions + Cloud Sc

                      小さいプロダクト開発におけるGCP利用の勘どころ - 個人的なプロダクトを三日でローンチした話 - Lean Baseball
                    • 画像生成AI「Stable Diffusion」でイラストのクオリティと多様性を劇的に改善する「Advanced Prompt Tuning(APT)」

                      画像生成AI「Stable Diffusion」が2022年8月に一般公開されて以降、高機能なUIや特定の画風に特化したモデルなどが有志によって続々と開発されています。新たに、1枚のイラストを追加学習するだけで、イラストの画風を模倣して高品質かつ多様な構図の画像を生成できる手法「「Advanced Prompt Tuning(APT)」が開発されました。 GitHub - 7eu7d7/DreamArtist-stable-diffusion: stable diffusion webui with advance prompt tuning https://github.com/7eu7d7/DreamArtist-stable-diffusion propose an advanced Prompt Tuning method (APT), can super dramatically

                        画像生成AI「Stable Diffusion」でイラストのクオリティと多様性を劇的に改善する「Advanced Prompt Tuning(APT)」
                      • 月間1.6億秒の Lambda x Node.js 利用から得られた知見

                        はじめにStockmark のプロダクトでは、各メディアから記事を収集するために AWS Lambda (実行環境はNode.js) を大量に利用しています。「大量」とは実際にはどの程度なのかを紹介すると、月間で 1.6億 秒ほど(1日で約60日分) 使用しています。もしかしたら「えっ、なんでそんなに使っているの?」と思われているかもしれません。 本記事ではその疑問に回答しつつ、実運用から得られた知見を一部共有していきます。段階的に理解いただけるように、技術選定理由から説明していきます。 なぜ Node.js なのか?なぜ AWS Lambdaなのか?Lambda x Node.js でスクレイピングする際の落とし穴ということで、早速1つ目からいってみましょう! なぜ Node.js なのか?ストックマークのプロダクトでは、Web記事などを中心としてスクレイピングして収集した情報をベースに

                          月間1.6億秒の Lambda x Node.js 利用から得られた知見
                        • Datadog メトリクスモニター作成入門

                          Datadog はモニタリング関連の SaaS ではおそらく最も利用されているサービスでしょうが、公式ドキュメントが豊富にある割には何から読み始めれば良いかわかりにくく、慣れるまでの道が険しい印象です。 本エントリーでは、Datadog が既に導入されている組織で、Datadog モニターを使って監視をしたいけど、モニターの設定方法がよくわからないといった方を対象に、メトリクスモニターの作成に焦点を絞って解説していきます。なお、あくまで Datadog の使い方についての解説であり、どのようなモニターを設定すべきかについては触れません。 メトリクスの収集についても触れたかったんですが、力尽きたので、メトリクスの収集については気が向いたら別エントリーを書きます。 アジェンダ メトリクスモニターの作成方法の基本 クエリの定義について クエリの評価期間・評価方法・アラート条件の指定 クエリの結果

                            Datadog メトリクスモニター作成入門
                          • 温泉むすめは萌えているか?炎上のツイート分析(鳥海不二夫) - エキスパート - Yahoo!ニュース

                            2021年11月15日のこんなツイートがきっかけで,温泉むすめというコンテンツが炎上しているようです. 温泉むすめのキャラクタ―設定に不適切な表現があったということで問題視されたようです.とはいえ,こういった「不適切な表現」への指摘は,その表現のファンにとっては受け入れがたいもので,反発があって炎上するのはよくある話です. 炎上したのであれば,とりあえずどのように炎上しているのが調べるのが礼儀というものかと思いますので,ツイートを収集して分析をしてみました. なお,この分析はあくまでもツイッター上での分析であり,温泉むすめというコンテンツの是非について結論を出すものではないことにご注意ください. 3行まとめ・温泉むすめの炎上は批判派と擁護派,肯定派の3クラスタに分かれ,擁護+肯定系が多く,批判派のアカウントは少なかった ・どのクラスタも偏りが大きい(エコーチェンバー現象が生じている可能性が

                              温泉むすめは萌えているか?炎上のツイート分析(鳥海不二夫) - エキスパート - Yahoo!ニュース
                            • 女性支援団体Colaboの炎上分析(鳥海不二夫) - 個人 - Yahoo!ニュース

                              年末くらいからネット上で,女性支援団体Colaboに対する不当会計疑惑等が指摘され,ツイッター等で話題となっています. そこで,ツイッター上で関連するツイートを収集して,どのような意見がネット上にあるのかを分析するため,ツイートの収集を行ってみました.2022年7月12日から2023年1月2日まで,「colabo, 仁藤夢乃, 仁藤, 夢乃, 暇空茜, 暇空, 暇アノン, #暇アノン, #colabo」を含む4,280,488ツイートを収集しました.関連ツイートを投稿したアカウントは303,126ありました. 収集したデータから,そこそこ大きな炎上になっていることがわかりました.では,このデータを分析していってみましょう. なお,この記事はあくまでもツイートのデータを分析したものであり,女性支援団体Colaboに対する特定の意見を表明するものではありませんし,なんらかの結論を提示するもので

                                女性支援団体Colaboの炎上分析(鳥海不二夫) - 個人 - Yahoo!ニュース
                              • コアRPGファンを惹きつけて止まない迷宮の呼び声…「DRPG」の魅力とは?【年末年始特集】 | Game*Spark - 国内・海外ゲーム情報サイト

                                冒険者たちを集めてパーティを組み、周囲が不明瞭な薄暗いダンジョンに潜り、行く手を阻む強力なモンスターたちと戦い、得られた財宝で冒険者たちを強化し、より深みに潜る……本特集ではそんな「DRPG(ダンジョンRPG)」についてその魅力と、Steamで配信されているタイトルを中心におススメのゲームを紹介します。 弊誌では2019年の年末年始特集でも3DダンジョンRPGについて取り扱っていますので、あわせて参考にしてみてください。 そもそもDRPGとは?「DRPG(ダンジョンRPG)」というジャンル名を初めて聞かれた方も多いかもしれません。 このジャンルの特徴を説明すると、 というスタイルのRPGになります。(特に戦闘やゲームの進め方の方式は問われない) 古典的な海外作品では『ウィザードリィ』(1981)、『ダンジョンマスター』(1987)、より近年の国産では『世界樹の迷宮』(2007)が該当する…

                                  コアRPGファンを惹きつけて止まない迷宮の呼び声…「DRPG」の魅力とは?【年末年始特集】 | Game*Spark - 国内・海外ゲーム情報サイト
                                • ISUCON10 予選問題の解説と講評 : ISUCON公式Blog


                                  ISUCON 10  @yosuke_furukawa ISUCON 10  ISUCON 10  URL http://github.com/isucon/isucon10-qualify  README.md   ISUUMO  ISUCON10  ISUUMO ISUCON 使
                                    ISUCON10 予選問題の解説と講評 : ISUCON公式Blog
                                  • 個人開発したサービスのバックエンドを Python から Rust に書き換えてみた

                                    はじめに 過去の記事『淡路島発着の高速バス検索サービス「GO TO AWAJI」をリリースした話』で Python を用いて個人開発サービスのバックエンドを実装したことを紹介しました。 勉強のためにこのサービスのバックエンドの一部を Rust で書き換えたので、本記事で紹介させて頂きます。 クローラーサービス 今回 Python から Rust に書き換えを行ったのはクローラーと呼んでいるサービスです。 これは GCP の Cloud Run 上で動いており、 Cloud Scheduler から定期的に実行されて以下のことを行っています。 クローラーサービスのシステム構成 各バス会社の新着情報をスクレイピングする 取得した新着情報を DB (SQLite) に保存されている過去の新着情報と比較する 新しい新着情報が存在する場合DBに保存し、SendGrid で筆者宛にメールで通知する な

                                      個人開発したサービスのバックエンドを Python から Rust に書き換えてみた
                                    • クローラー運用を楽にするためのクラウドサービス比較 - ZOZO TECH BLOG

                                      こんにちは!最近気になるニュースはスピノサウルスの尻尾の化石が発見されたこと1な、SRE部エンジニアの塩崎です。ZOZOテクノロジーズの前身となった会社の1つであるVASILYでは数多くのクローラーの開発・運用の担当をしてきました。 今回はその知見を生かして、クローラーを楽に運用するためのクラウドサービスを紹介します。 概要 データ解析を円滑に進めるためには、CSVやWeb APIなどの構造化されたデータが必要です。しかし全てのWebサイトにあるデータが構造化データを提供しているとは限りません。むしろ提供していないケースの方がはるかに多いです。そのため、Webクローラーを作成して構造化されていないWebページを解析し、構造化データを生成する必要があります。 しかし、Webクローラーの運用には数多くの「つらみ」があります。特に大量のWebページを1日1回などの頻度で定期的にクロールする際には

                                        クローラー運用を楽にするためのクラウドサービス比較 - ZOZO TECH BLOG
                                      • 陸上自衛隊のヘリが撃墜されたと考えている人たちは誰か(鳥海不二夫) - エキスパート - Yahoo!ニュース

                                        2023年4月6日に宮古島付近で陸上自衛隊のヘリコプターが行方不明になりました. これに対して,陸上自衛隊は「航空事故と概定し」ていますが,「実際には撃墜されたのではないか」という憶測がネット上で飛び交っているようです. そこで,ネット上での憶測がどの程度あり,どのような人たちがそのような憶測を投稿しているのか,ツイッター上のデータを分析しました. 三行でまとめ・事故に懐疑的なアカウントは17,000アカウント程度 ・保守系アカウントが多い ・2022年にワクチン懐疑派に転じたアカウントがなぜか多い データまず,事故関連のツイートを収集するために「ヘリ+陸自,陸上自衛隊,自衛隊」で検索を行い,4月6日~15日の間に投稿された382,397ツイートを収集しました. さらに,事故ではないという投稿を取得するために,こちらの記事を参考に「撃墜,電波,電磁波,ミサイル,ドローン,中国」を含むツイー

                                          陸上自衛隊のヘリが撃墜されたと考えている人たちは誰か(鳥海不二夫) - エキスパート - Yahoo!ニュース
                                        • Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築

                                          はじめにこんにちは、Finatextで証券プラットフォーム(Brokerage as a Service、以下BaaS)の開発に携わっている石橋(@bashi0501)です。過去のFinatextテックブログではTerraform、CDKとIaCをテーマにした記事しか書いたことがなかったのですが、今回はログの分析活用をテーマとします。 概要弊社の証券事業ではECSによるワークロードを組んでいます。本テーマのアプリケーションログについては標準出力したものをawslogsログドライバーが回収してCloudWatch Logsに送信しています。 ログの検索という観点ではCloudWatch Logs Insightsというサービスでかなりリッチにフィルターや集計を行うことができるのですが、ログデータを元にしたユーザーのファネル分析や業務改善(後述します)に活かしていきたいという意図があるため、マ

                                            Athena+Embulk+BigQueryによるアプリケーションログの分析環境構築
                                          • 【悪用厳禁】Torを使ったスクレイピングでIPアドレスを分散させるテクニック – Python | Let's Hack Tech

                                            Torをスクレイピングで使いやすくするPythonのモジュール作ってみた TorをPythonスクレイピングに流用しやすくするためのモジュールを作成しました。Torをスクレイピングに流用することによって、IPによる制限を回避することが容易になります。 Torを使ったWebスクレイピング Webスクレイピングに、そのSocksプロキシを流用することで、簡単にIPアドレスを変更することが可能になります。 つまり自分のIPではないIPを使って色んなWEBサイトにBOTアクセスすることが可能になります。 Torを使ったスクレイピングはどういった場合に便利なのか? WEBアクセスの自動化、スクレイピングやBOTアクセスというのは年々、制限が厳しくなっているサイトが増えています。 例えばブックオフオンラインというサイトで、20回ほど連続でF5ボタンを押してみてください。 ブックオフオンラインは割と昔か

                                              【悪用厳禁】Torを使ったスクレイピングでIPアドレスを分散させるテクニック – Python | Let's Hack Tech
                                            • あっさりサヨナラなんですね...。NASA、歴史的な発射台を取り壊して駐車場に

                                              あっさりサヨナラなんですね...。NASA、歴史的な発射台を取り壊して駐車場に2021.01.25 20:0023,883 George Dvorsky - Gizmodo US [原文] ( 岩田リョウコ ) ちょっと寂しいですね。 アポロ計画でロケットたちを送り出してきた発射台が解体・撤去作業に入ったそうです。そして、撤去後は駐車場になるとのこと。 哀愁なし。解体されたらただの鉄モバイル発射プラットフォーム(MLP-2)は50年以上前に製造され、アポロ12号や14号などNASAの歴史的なミッションを成し遂げてきました。1968年から2011年の現役中に50以上のロケットを発射したMLP-2。思い出のたくさん詰まった高さ約8メートル、幅約41メートルの発射台が現役生活に幕を下ろします。この歴史的な発射台、博物館で展示されるなど、引退後もなんらかの「役目」が与えられるかと思いきや、NASA

                                                あっさりサヨナラなんですね...。NASA、歴史的な発射台を取り壊して駐車場に
                                              • ダジャレを判定する - Stimulator

                                                - はじめに - 近年、IT業界のダジャレは熾烈の一途を辿っている(ITだけに) 。 類義語を巧みに取り入れたダジャレ、難読化されたダジャレなどが増加し、一体どれで「初笑い」すれば良いのか悩む若者も少なくない。 そのような背景があり、ダジャレを判定するアルゴリズムの開発も盛んである。 ルールベースによる判定では、@kurehajimeが提案、開発したdajarep *1 や、@fujit33によるShareka *2が存在する。特にSharekaは、ルールベースのロジックにも関わらず、反復型とされる種類のダジャレに対して高い精度での判定を可能にしている。また、機械学習モデルを用いた判定手法として、谷津(@tuu_yaa)らが開発したDajaRecognizer *3がある。DajaRecognizerは、多くのルールベースによって子音音韻類似度をPMIとして定義、Bag-of-Words、

                                                  ダジャレを判定する - Stimulator
                                                • レンダーバジェットとは何か、あるいはなぜ私は心配するのをやめてサーバーサイドレンダリングを愛するようになったか - ブログ - 株式会社JADE

                                                  こんにちは、株式会社JADEの長山一石です! 5年ほど前、Google の公式ブログ上で ウェブページをより深く理解するようになりました と言う記事を書きました (英語原本はこちら)。この記事は、検索エンジンが JavaScript を実行し、ウェブページをレンダーすることができるようになったことを告知するもので、当時としては非常に画期的なものだったと言えます。これによりインデックスされていなかった数多くのページが Google に認識されるようになり、ウェブ全体の検索可能性が上がることになりました。最初はインデックスの一部分からはじめて、徐々に範囲を拡大していき、最終的には長らく現役だった AJAX クローリングスキームも無事撤廃することができました。それについても、AJAX クロールに関するスキームを廃止します と言うブログ記事で書きました (英語原本はこちら)。 レンダリングをするボ

                                                    レンダーバジェットとは何か、あるいはなぜ私は心配するのをやめてサーバーサイドレンダリングを愛するようになったか - ブログ - 株式会社JADE
                                                  • 【悪用厳禁】AWS Lambda で Tor を使う


                                                    AWS  Lambda /Headless Chrome (chromium) Tor IP   TypeScript  Tor  Tor Tor  Tor tor使 Chrome Tor tor   Tor 使 MacOS  Homebrew
                                                      【悪用厳禁】AWS Lambda で Tor を使う
                                                    • Googleのランキングアルゴリズム流出から考えるSEO - Qiita


                                                       StampTabisakiSEOGoogleAI Domain Authority Domain AuthorityDASEO使SERPMoz0100 :  
                                                        Googleのランキングアルゴリズム流出から考えるSEO - Qiita
                                                      • 大規模データを扱う現場でどんな変化が? Snowflake導入5社のデータ基盤アーキテクチャと設計意図 - Findy Tools

                                                        公開日 2024/03/11更新日 2024/03/12大規模データを扱う現場でどんな変化が? Snowflake導入5社のデータ基盤アーキテクチャと設計意図 スケーラビリティやデータ活用までのリードタイム、価格面での懸念に応える製品として注目を集めるSnowflake。特に大規模なデータを取り扱う現場では、Snowflake導入によってどんな変化があるのでしょうか。 本記事では、前回の第一弾でご紹介したChatworkさん、delyさん、GENDAさん、スターフェスティバルさんに引き続き、第二弾として大規模データを取り扱う5社に、データ基盤の設計思想やデータチームの方針にも触れながら、Snowflake導入の背景や効果を伺いました。 ■目次 ・株式会社Algoage ・株式会社GROWTH VERSE ・株式会社マイナビ ・ノバセル株式会社 ・株式会社セゾン情報システムズ 株式会社Alg

                                                          大規模データを扱う現場でどんな変化が? Snowflake導入5社のデータ基盤アーキテクチャと設計意図 - Findy Tools
                                                        • 100の主要な音楽メディアの「2021年の年間ベスト・アルバム」を集計 TOP50リスト発表 - amass

                                                          およそ100の主要な音楽メディアの「2021年の年間ベスト・アルバム」を集計。ベスト・アルバム集計サイトAlbum of the Yearが集計版「2021年の年間ベスト・アルバム TOP50」を発表しています。 【集計ルール】 各メディアが発表した「2021年の年間ベスト・アルバム」のリストから、1位の作品に10ポイント、2位の作品に8ポイント、3位の作品に6ポイント、4〜10位の作品に5ポイント、11〜25位の作品に3ポイント、26位以降の作品に1ポイントをそれぞれ加算。ランク付けされていないリストの場合は、リストが10枚以下の場合は5ポイント、25枚以下の場合は3ポイント、25枚以上の場合は1ポイントをそれぞれ加算します。 現時点で96のメディアを集計。今後Album of the Yearの集計対象となるメディアがベストリストを発表した場合は、その分のポイントが加算されるため、順位

                                                            100の主要な音楽メディアの「2021年の年間ベスト・アルバム」を集計 TOP50リスト発表 - amass
                                                          • Pythonで画像データをスクレイピング 手軽に画像収集したい方必読! - AI Academy Media

                                                            icrawlerとは icrawlerとはウェブクローラのミニフレームワークです。 It supports media data like images and videos very well, and can also be applied to texts and other type of files. と公式に記載があるように、画像や動画などのメディアデータをサポートしており、 テキストやその他の種類のファイルにも適用可能です。 公式マニュアル インストール Macならターミナル、Windowsならコマンドプロンプトを開き、次のコマンドを実行してください。 pip install icrawler Jpyter Notebookのセルや、Colabのセルの中では次のように実行します。 !pip install icrawler 犬と猫の画像をダウンロードする 今回はGoogle検

                                                              Pythonで画像データをスクレイピング 手軽に画像収集したい方必読! - AI Academy Media
                                                            • お手軽遺跡探索RPG『Dragon Ruins』が日本人気やたら高めで開発者もびっくり。日本語対応も後押し、国別ユーザー数はシェア1位 - AUTOMATON

                                                              ホーム ニュース お手軽遺跡探索RPG『Dragon Ruins』が日本人気やたら高めで開発者もびっくり。日本語対応も後押し、国別ユーザー数はシェア1位 デベロッパーのGraverobber Foundationは4月30日、『Dragon Ruins』をリリースした。対応プラットフォームはPC(Steam)で、定価は税込580円。日本語表示に対応している。本作は好評を集めており、7月6日には3000本の売上を達成したという。そしてその多くが日本からの購入となっているようで、開発者は驚きを隠せないようだ。 『Dragon Ruins』はダンジョンを探索するRPGだ。舞台は古龍が存在するファンタジー世界。ゲーム内に登場する架空の国家イシグェーアの首都、ファセレイで古代遺跡が発見される。イシグェーアの女王は古龍を討伐するために4人の冒険者を集め、ダンジョン探索を命じる。プレイヤーはこの冒険者た

                                                                お手軽遺跡探索RPG『Dragon Ruins』が日本人気やたら高めで開発者もびっくり。日本語対応も後押し、国別ユーザー数はシェア1位 - AUTOMATON
                                                              • PyCon JP 2020のTwitter実況システムをGKE上に作った話 - JX通信社エンジニアブログ

                                                                SREのたっち(@TatchNicolas)です。 今年のPyCon JPはオンライン開催でした。JX通信社はSilverスポンサーとして協賛したほか、イベントをより盛り上げるために、参加者の反応をリアルタイムに配信に反映するシステムを開発・提供しました。 jxpress.net アプリケーションはPythonで作られており、基盤としてGKEを採用しました。データ分析基盤や昨年の開発合宿等で社内向けのプロジェクトにKubernetesの採用した事例は過去にもあったのですが、今回はじめて社外向けのシステムに採用したので、その裏側について書いてみたいと思います。 できたもの 構成図 構成としては比較的シンプルだと思います。 基本的な処理はGKE上で行い、データの永続化はFirestoreを使っています。一部、ブラウザで動く運営向けフィード画面上の操作(いいね・リツイート)について、Fireba

                                                                  PyCon JP 2020のTwitter実況システムをGKE上に作った話 - JX通信社エンジニアブログ
                                                                • OpenAIが将来のAIモデルの改善に向けたウェブクローラー「GPTBot」を発表、同時にAIによる無断での学習を防ぐためのブロック方法も公開

                                                                  GPT-3.5やGPT-4などの大規模言語モデルは、インターネット上のさまざまなコンテンツを学習することで、ユーザーからの質問やプロンプトに応えています。OpenAIが2023年8月に技術ドキュメントなどを公開したウェブクローラー「GPTBot」は、アクセスが許可されているウェブサイトから自動で情報を取得し、GPT-4や将来的に公開されるGPT-5などの大規模言語モデルの改善に役立てられるとされています。 GPTBot - OpenAI API https://platform.openai.com/docs/gptbot OpenAI Launches GPTBot With Details On How To Restrict Access https://www.searchenginejournal.com/openai-launches-gptbot-how-to-restric

                                                                    OpenAIが将来のAIモデルの改善に向けたウェブクローラー「GPTBot」を発表、同時にAIによる無断での学習を防ぐためのブロック方法も公開
                                                                  • 【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog


                                                                    Ops-data(@contradiction29) 稿 tech.algoage.dmm.com   End of Service Life (EOSL)  
                                                                      【連載】データ分析基盤をdbt・Snowflakeに移行する【設計・実装編】 - Algoage Tech Blog
                                                                    • 実践 AWSデータサイエンス

                                                                      AWSではデータサイエンス分野で利用できるさまざまなサービスが提供されています。本書では、それらのサービスを有効に使って、データの収集、分析、モデルの訓練、テスト、デプロイまでの一連のプロセスを行う方法を紹介します。対象とする事例は、ヘルスケアデータ、時系列データ、自然言語処理、画像分類、不正検出、需要予測、レコメンデーションシステムなど非常に多岐にわたります。本書の目的は、Amazon SageMakerをはじめとしたAWSの機械学習サービスの詳細を説明するだけでなく、AWSのサービスを組み合わせることで、データサイエンスとアプリケーション開発の統合を図り、開発を効率化することであり、データサイエンティスト、データアナリスト、データエンジニア、MLエンジニアはもちろん、アプリケーション開発者や管理職にとっても役に立つ一冊です。 正誤表 ここで紹介する正誤表には、書籍発行後に気づいた誤植や

                                                                        実践 AWSデータサイエンス
                                                                      • Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball

                                                                        個人開発(趣味プロジェクト)でプロダクトを作りながら, 本職の仕事でソリューションアーキテクトっぽいことをしているマンです*1. 最近は個人開発のネタとして, プロ野球選手の成績予測プロジェクト ヘルスケア周りの自分専用プロダクト開発 この2本軸で週末エンジニアリングをしているのですが, これらの事をしているうちに, Webアプリケーション + 分析用のデータ基盤の最小セット, みたいなパターンが見えてきた クラウドにおけるサービスの選び方・スケール(=拡張)するときに気をつけるべき勘所 みたいなのがまとまってきました. せっかくなので, 言語化した上で再現性をもたせよう!という主旨でこのエントリーを書きたいと思います. なお, これだけは強く言っておきます. 参考にするのは自由です&真似ができるようなプラクティスではありますが, ベストプラクティスかどうかは(この記事を読んだ皆様の)状況

                                                                          Webアプリとデータ基盤をサクッと立ち上げるためのプラクティス - Google Cloudとサーバレスなサービスで良しなにやってみた - Lean Baseball
                                                                        • はてなブログの引用の使い方を紹介! - ぴっぴのはてなブログでアフィリエイト


                                                                           使 SEO  SXO       使 使  @hiyoko_no_pippi使💦 使使 使 使     
                                                                            はてなブログの引用の使い方を紹介! - ぴっぴのはてなブログでアフィリエイト
                                                                          • DMMのデータ活用を支えるビッグデータ基盤・ML基盤のクラウド移行 (CUS-40) #AWSSummit | DevelopersIO

                                                                            本記事は、AWS Summit Japan 2021のセッション動画「CUS-40: AWS移行事例紹介 ~DMM のデータ活用を支えるビッグデータ基盤・ML基盤のクラウド移行 ~」のレポート記事です。 概要 "50以上の事業を展開するDMM。年々増えるデータ、バッチ、業務。そんな状況をAWS上での基盤構築を通じて打開した事例紹介" 50以上のビジネスを展開するDMM.comでのデータ活用基盤(データレイク基盤と機械学習基盤)をAWS上に構築した事例を紹介します。 データレイク基盤はオンプレ上で動いていた3000以上のJobの完全移行を実施し、よりスケーラブルな分析、データ処理、Single Source of Truth (SSoT)を実現しています。 機械学習基盤はArgoなどエコシステムが豊富なAmazon EKS Kubernetesを採用し、機械学習モデルの継続的なデプロイを行う

                                                                              DMMのデータ活用を支えるビッグデータ基盤・ML基盤のクラウド移行 (CUS-40) #AWSSummit | DevelopersIO
                                                                            • A search engine in 80 lines of Python

                                                                              February 05, 2024 · 26 mins · 4728 words Discussion on HackerNews. Last September I hopped on board with Wallapop as a Search Data Scientist and since then part of my work has been working with Solr, an open source search engine based on Lucene. I’ve got the basics of how a search engine works, but I had this itch to understand it even better. So, I rolled up my sleeves and decided to build one fr

                                                                              • Markdown の Table 記法を CSS で実現する | blog.jxck.io

                                                                                Intro 本ブログは Markdown で原稿を書き、それを HTML に変換して表示している。このとき、 CSS を用いて Markdown のシンタックスに似せた Style を適用している。例えば以下のように h2::before に content: '##' を指定するといった具合だ。 しかし、これまで <table> だけはうまく Markdown 記法を再現する CSS が書けないでいた。 そこで、周りの CSS 強者に実現できないか聞いてみたところ、@shqld, @araya, @yoshiko 達の協力を得て、かなりの完成度にすることができた。実現方法を記録する。 Before 実現したいのは以下のような記法だ。 | file type | size | ratio | |:----------|-----:|------:| | .webp | 9474 | 100

                                                                                  Markdown の Table 記法を CSS で実現する | blog.jxck.io
                                                                                • AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ

                                                                                  こんにちは、 id:sora_h です。これは KMC Advent Calendar 2023 12 日目の記事です (大遅刻)。 KMC ではインターネット接続手段の 1 つとして AS59128 を 2017 年頃より運用して、部室内のサーバーや一部の部員が利用しています。これまでフロー情報の収集は行ってきませんでしたが、今年、フロー情報の統計を収集して分析を可能にしたため、その実装を軽く紹介します。地味に pmacctd のドキュメントが難解だったので…。 経緯 AS59128 は運用初期から複数のトランジットやピア、東西に跨った複数拠点が存在していますが、外部の経路由来の障害や性能劣化についての調査はフロー情報なしで実施していて、特に変化前のトラフィックを確認することがそれなしでは難しくエスパーを繰り返してました。 このままでは障害時の対応が手探りで安定運用に支障がある、また (

                                                                                    AS59128 のフロー情報収集と Amazon Athena での分析 - KMC活動ブログ