本記事はストックマークAdvent Calendarの21日目の記事です。 はじめに こんにちは、ストックマークの谷本です。 ストックマークでは、ビジネス情報に特化したデータプラットフォームを独自に構築しています。 本記事では、そのデータプラットフォームの中核であるWebクローラーのパフォーマンスを、Rust+WASMでコスパ良く改善できたという事例を紹介したいと思います。 何が問題だったか Webクローラーは、国内外のニュースサイトや企業サイト、ブログを回覧してビジネス情報をデータ化します。 そのさい、読み込むSitemapやRSS(これらはXML形式で配信されています[1])のサイズが大きいと解析にかなり時間がかかり、想定していた処理時間を超えてタイムアウトエラーを起こすケースがありました[2]。それが少数のサイトであればまだインパクトは小さいですが、回覧するサイトは日々増えており、W
Google SpreadSheet で手軽にデータ取得する方法をまとめます。 ※個人メモとしての記事で、既出情報です IMPORTDATA サンプル IMPORTFEED サンプル IMPORTHTML サンプル IMPORTRANGE サンプル IMPORTXML サンプル IMPORTDATA 指定URLのデータをCSV,TSV形式でインポートする IMPORTDATA - Google ドキュメント エディタ ヘルプ サンプル 都道府県データのCSVを取得します 都道府県データ - tbpgr/sample_data - GitHub =IMPORTDATA("https://raw.githubusercontent.com/tbpgr/sample_data/master/prefectures.csv") IMPORTFEED RSS フィードや Atom フィードをインポー
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く