[B! streaming] sh19910711のブックマーク

順序性の担保とスループットはトレードオフだという話

この記事について AWS SQSからメッセージを受けとって処理するLambdaを書いているときに、標準キューだから順序保証されてないな、じゃあ順序バラバラできても捌けるように処理を書かないと！ → ... → あれ？？？意外とこれ難しくない？？？と思った経験、皆さんにもあるのではないでしょうか。この記事では、筆者が上記のような壁にぶつかったときに「順序を保つってなんでそんなに難しいんだろう？」「保てないならどうやってそれに耐えうるようにすればいいんだろう？」と色々考察した結果を書いていきたいと思います。使用する環境・バージョン 2024/6/22時点で提供されている機能に基づき考察読者に要求する前提知識 AWSのSQS, SNS, Kinesis Data Streamがどういうサービスなのかは既知という前提のもとで書きました順序セマンティクスとは順序セマンティクスとは「イベ

sh19910711 2024/06/27

"ほぼランダムにばらつくようなことはなく、なるべくA→Bになるようにベストエフォートでの挙動が提供されていることが多い / 「順序を担保できるのは同じ場所にあるもののみ」という性質がある"

リンク

Clojure で Kafka Streams アプリケーションを書く - Qiita

この記事は Kafka Advent Calendar 2021 の11日目の記事です。前回の記事で紹介した Kafka Streams アプリケーションをClojureで書いてみました。 Jackdawという Kafka Streams の Clojure ラッパーライブラリを使っています。テスト環境構築手軽に手元で試したいので、Kafka のQuick start に従い環境構築します。

sh19910711 2024/06/19

"Jackdaw: Kafka Streams の Clojure ラッパーライブラリ / Streams DSL が clojure 関数にラップされており、それらは builder か kstreams を第一引数に取るため、スレッディングマクロで簡潔ににトポロジーを書き下せます" 2021

リンク

DataFlowのパイプラインでCerberusの機能を使って、csvをチェックしてみた。 - Qiita

はじめに現在業務でGCPのDataFlowを使ってデータパイプラインを構築しており、CSVファイルがアプリケーションから来るのですが、たまにユーザが手で直したりなんてことがあるので、バリデーションして、不適当な行があれば省いて、後続のデータパイプラインに流したいと思っています。(上流の運用なおしたいのはやまやまですが。。。) そこでCerberusというバリデーションライブラリがあったので、いっちょやってみようと思った次第です。 Cerberusとは Pythonのデータ検証用のライブラリで﹁Cerberusは、強力でありながらシンプルで軽量なデータ検証機能をすぐに提供し、簡単に拡張できるように設計されているため、カスタム検証が可能です。依存関係はなく、Python 2.7から3.8、PyPyおよびPyPy3まで徹底的にテストされています。﹂とのこと (引用元https://docs.

sh19910711 2024/06/16

"Cerberus: Pythonのデータ検証用のライブラリ + シンプルで軽量なデータ検証機能をすぐに提供し、簡単に拡張できるように設計 / regixだったり桁数だったりかなり柔軟にチェックができる" 2022

リンク

読書メモ: Stream Processing with Apache Flink

sh19910711 2024/06/13

"1 から 3 章は Flink に限らないストリーミング処理一般の概念や設計思想 / 第3世代 (2015 年頃): この時点で Lambda Architecture は不要になり Stream Processor に 1 本化 + Flink は第 3 世代のプロダクト"

リンク

API Gateway から Amazon Data Firehose へ Lambda を使わずにデータを流す - every Tech Blog

この記事は every Tech Blog Advent Calendar 2024(夏) 11 日目の記事です。エブリーで小売業界向き合いの開発を行っている @kosukeohmura といいます。エブリーでは retail HUB という小売業界向けのサービスを展開しており、その開発を行う中でイベントログを収集する API を作る機会がありました。この記事ではその中でも表題の点にフォーカスして詳細をお伝えできればと思います。イベントログを収集する API の概観クライアントからのイベントログを API Gateway で作成した API で受け、Amazon Data Firehose ストリーム経由で S3 に保存します。イベントログデータの流れ API では一度のリクエストで複数のイベントを受け取り、その後 Amazon Data Firehose の PutRecord

sh19910711 2024/06/13

"クライアントからのイベントログを API Gateway で作成した API で受け + イベントログと合わせて保存したいメタデータを付加 / API Gateway: マッピングテンプレートを利用することでリクエストボディの変換ができる"

リンク

Snowpipe Streaming X Kafkaでデータ取り込みやってみた

23年7月のアップデートでSnowpipe Streaming + Kafka Connectorがサポートされたので遅くなりましたが、どんな感じなのか試してみました。 Snowpipe Streaming + Kafka Connectorのポイント公式ドキュメントより抜粋 KafkaからのデータのロードチェーンでSnowpipeを Snowpipe Streaming に置き換えることができます。指定されたフラッシュバッファーのしきい値（時間、メモリ、またはメッセージ数）に達すると、仮のステージングされたファイルにデータを書き込むSnowpipeとは異なり、コネクタはSnowpipe Streaming API （「API」）を呼び出して、データの行をSnowflakeテーブルから書き込みます。このアーキテクチャにより、ロード遅延が短縮され、同様の量のデータをロードするためのコス

sh19910711 2024/06/08

"7月のアップデートでSnowpipe Streaming + Kafka Connectorがサポート / コネクタには、Snowflake Ingest SDK が含まれており、Apache Kafkaトピックからターゲットテーブルに直接行をストリーミング + スキーマ検出および進化をサポート" 2023

リンク

Druidとflinkを使った動画広告のリアムタイム集計基盤

[BA11] Office 365/Dynamics 365 連携だけじゃない！業務に使うマルチデバイスアプリ作成に向けた PowerApps/Flow...

sh19910711 2024/05/28

"Druid: イベントデータに対するOLAP + リアルタイムデータとヒストリカルなデータをSub-secondで処理できるよう設計されたデータストア / Superset: もともとはPanoramixという名前だった" 2017

リンク

Hadoop Streaming の Mapper と Reducer を初めて書いて感じたこと:お題目うぉっち

2010年02月02日 Hadoop Streaming の Mapper と Reducer を初めて書いて感じたこと O'reilly の Hadoop本を読んで、ますます Hadoop 熱が上昇中。ということで、社内でもともとDBで行っていて﹁重い、重い﹂と評判の分析処理を題材に、既存ロジックの Mapper、Reducerへの置き換えを体験してみた。結局、6段階のMapReduceのチェーンに置き換えられたのだが、内容はさておくとして、既存の処理を mapper、reducer に置き換えていったときに感じたこと、印象深かったことを記しておくことにする︵多分、思い違いや、もっといい方法があると思うが、初心者の過ちということで︶。 ■ Streamingの場合、Mapper, Reducerへの入力は Key, Value ではない Javaのメソッドの説明を下手に読んで私がまず混

sh19910711 2024/05/26

"よくある MapReduce の説明だと、「Mapper、Reducerには、各行の Key と Value が渡される」的なことが書かれ / 一方、Streaming の場合は InputFormat が Key と Value を Value として一緒くたにして STDIN経由で渡してくる" 2010

リンク

Kafka Streams で状態を持つアプリケーションを作る - Qiita

この記事はKafka Advent Calendar 2021の3日目の記事です。 Kafka Streams でステートフルなアプリケーションを開発する際、Kafka 外のデータストアを使ってしまうと Kafka Streams が持つフォールトトレランスや処理の保証などの機能を活かし切れず、競合状態やリトライなど注意点が多く発生します。Kafka 自体をデータストアとすることで、Kafka Streams の利点を活かせるアプリケーションのパターンを紹介します。 Kafka Streams とは Kafka のクライアントとコンシューマを利用し、Kafka トピック上を流れるデータに対するトポロジー（結合、変換など）を定義し、ストリーム処理が出来るライブラリです。あるトピックにメッセージが配信されたらそのメッセージを処理し、結果を別のトピックに配信する、というようなアプリケーションを

sh19910711 2024/05/25

"KTable: Kafka Streams で状態を扱う一番基本的な方法 + トポロジー内で KTable からエンティティのスナップショットを取得 + 新状態を KTable のトピックに再び配信することでそのエンティティを更新" 2021

リンク

ニアリアルタイムで投稿レコメンドをユーザーに届ける - Commune Engineer Blog

こんにちは，コミューンで一人機械学習︵ML︶チームで機械学習エンジニアとして働いている柏木︵@asteriam_fp︶です．今年ももうあと少しですね，やり残したことは今年のうちにしたいものですが，僕は最近やっとジムに入会して適度に運動を始めることにしました！運動はメンタルヘルスにも影響があり，心が落ち着いたり，前向きな気持ちになる効果があるそうで，まだそこまでの実感はないですが継続していきたいと思います！はじめに本ブログでは，前回のテックブログで紹介した投稿レコメンド機能の初回リリース時の課題であった新着投稿に対しても，ニアリアルタイムでレコメンドを提供できるようにした取り組みの紹介になります．ただし，今回の取り組みは現状ではベストだと思いますが，理想的な状況ではないので，その辺りも最後に紹介したいと思います．はじめに投稿レコメンド機能における課題投稿レコメンド機能とは課題

sh19910711 2024/05/19

"Feature Store を導入しユーザーへのレコメンド提供の速度が上がることで，どれほどのビジネスインパクトを生み出せるか / とても便利である反面，これらを GCP のマネージドサービスを使って構築すると非常に高価" 2023

リンク

Debeziumで変更データキャプチャを学ぼう #jjug_ccc

JJUG CCC 2021 Fallの「15:00 ~ 15:50 Debeziumで変更データキャプチャを学ぼう」の資料です

sh19910711 2024/05/14

"Debezium: RedHatがサポート + データベースの行レベルの変更をキャプチャする分散サービスのセット / Kafkaが嫌ならEmbedded Engineという手もある + お好みのメッセージブローカーに送信することも出来る" 2021

リンク

ElasticsearchとNeo4jをKafkaで連携する - Qiita

どうしてこの記事を書いたのか Elasticsearch/Neo4j 活用していらっしゃいますでしょうか？どちらも著名なデータベース︵DB︶ですが，その特徴・用途は異なります． Elasticsearch は文字情報の検索に強く，Neo4j は関連性を早く調べたいという場合に利用されているイメージです．所感ですが，Neo4j でもデータのプロパティを基準にクエリをかけたいこともありますし，Elasticsearch に入っているデータ同士を紐づけたいことも往々にしてあります．しかし，愚直にそうしてしまうとスループットが低くなったり，実装に継続的な作りこみが必要だったり，なかなか考え物です．そこで，データ構造を見直しつつ何とか良いとこ取りできないかなと検討するようになりました． Neo4j と Elasticsearch の連携を行うことで， Elasticsearchに投入したデー

sh19910711 2024/05/09

"Neo4j でもデータのプロパティを基準にクエリをかけたい + Elasticsearch に入っているデータ同士を紐づけたい / Neo4j Connector は Sink と Source のどちらもサポート" 2022

リンク

S3のコスト削減に成功した話〜カギはバッチウィンドウ〜｜ハンズラボ株式会社

こんにちは！POSグループのhktです。こちらの記事は、「S3のコスト削減に失敗した話」の後編になります。もしまだ前編をご覧になっていない方は、ぜひ読んでみてください。さて、前編では、S3のコストを調査したところ、最も費用がかかっているのがPutObjectであることが判明しました。今回は、S3のコストを削減するために、PutObjectの実行回数を減らすことはできないか検討しました。 PutObjectの実行回数を減らしたい POSグループが運用するAWSアカウントでは、ログデータをS3に保存するために、Kinesis Data StreamsをトリガーとするLambda関数が稼働しています。具体的には、以下のような構成になっています。HandsPOSアプリからKinesis Data Streamsにログデータが送信され、Kinesis Data StreamsからLambd

sh19910711 2024/05/04

"S3のコストを調査したところ、最も費用がかかっているのがPutObjectで / ログデータをS3に保存するために、Kinesis Data StreamsをトリガーとするLambda関数が稼働 / バッチウィンドウ: 最大300秒間レコードをバッファリング" 2023

リンク

Akka Streams についての基礎概念 - Qiita

Akka Streams が2.4以降からexperimentalを外して、正式版をリリースしました。丁度会社で3日のHackerDaysを機に、Akka Streams を勉強しはじめました。この記事では、AkkaStreamの公式ドキュメントを抜粋し、翻訳しながら、AkkaStreamの基礎概念を説明します。 Akka Streams ってなに背景今のInternet上、我々は膨大なデータを消費している。その大量のデータを人々はビッグデータと呼んでいるw。もう昔みたいにデータを全部ダウンロードして処理、処理完了してアップロード的な処理は時間掛かりすぎ、そもそも一台のサーバに保存しきれないデータは処理できないので、Streamみたいな流れとしての処理が必要になっている。 Akkaが使うActorモデルもその一例、データを分割し、メッセージとしてActorに送る、Actorは只々流

sh19910711 2024/05/02

"Akka Streams: バージョン2.4以降、APIを一新 + experimentalでなくなった / SourceとFlowを繋げば、新しいSourceになる、FlowとSinkを繋げば、新しいSinkになる、すべて繋げば、 RunnableFlow になる" 2016

リンク

Apache Beam Python SDK でパイプラインのテストコードを書く - public note

sh19910711 2024/05/01

"Apache Beam: SDK には testing パッケージが用意 + パイプラインに対するテストコードを書けます / Beam パイプラインは、一般のコードと比較すると読んだだけでは挙動をイメージしにくい印象" 2023

リンク

Spark 2.0 on EMR で Structured Streaming をやってみた

“Distributed computing (Apache Hadoop, Spark, …) Advent Calendar 2016” の 12/19 担当ということで、Spark 2.0 on EMRで Spark Streaming と Structured Streaming をやってみた結果を書きます。この記事でやることこの記事では Spark 2.0 で、現在アルファ版の Structured Streaming をやってみます。 Structured Streaming とは、Spark SQL エンジンで実現されたストリーム処理の仕組みです。従来型の Spark Streaming は RDD を DStream とよばれる Spark Streaming 特有のモデルを導入して扱うのに対して、Structured Streaming では Spark SQL

sh19910711 2024/04/29

"Structured Streaming: Spark SQL エンジンで実現されたストリーム処理の仕組み + バッチジョブと同じ書き方で Streaming 処理を実現 / 従来型の Spark Streaming は RDD を DStream とよばれる Spark Streaming 特有のモデル" 2016

リンク

dbtからSnowflake Dynamic Tablesを作成してリアルタイムデータパイプラインを構築してみる

これは何？こんにちは。 dely株式会社でデータエンジニアをしておりますharry(@gappy50)です。この記事は、昨年書いた以下の記事の続きの記事になります。 SnowflakeではDynamic TablesのPuPrが開始されており、宣言的なデータパイプラインの全貌徐々に見え隠れしております。また、これに追従する形でdbt1.6でもMaterialized View︵SnowflakeではDynamic Table︶をサポートしはじめました。このDynamic Tablesのメリットとして一番わかりやすいのは、ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現が可能になる面だと思います。これまではモデルを作成したあとのワークロードの実行は dbt build を実行するタイミングとなってしまうため、リアルタイムなデータパイプラインの構築が難しい側面があ

sh19910711 2024/04/23

"宣言的なデータパイプラインの全貌徐々に見え隠れ + これに追従する形でdbt1.6でもMaterialized View（SnowflakeではDynamic Table）をサポート / ニアリアルタイムなストリーミングパイプラインをクエリを書くだけで実現" 2023

リンク

リアルタイムなイベントにFlafkaを使ってKafkaとデータのやり取りを行う - Qiita

Apache FlumeやApache Kafkaはリアルタイムなイベント処理のバックエンドとして広く利用されています。これら２つのシステムは似ている部分もありますが、ユースケースによりどちらか一方、あるいは量を組み合わせて使う場合もあります。 FlumeとKafkaの違いは次のブログも参考になります。 https://www.linkedin.com/pulse/flume-kafka-real-time-event-processing-lan-jiang Apache Kafka Apache Kafkaはpub-sub、出版-購読型のシステムで、多数のシステムとの連携に広く利用されています。 [画像はhttps://kafka.apache.org/より引用] しかし、Kafkaを使う場合、一般的にプロデューサやコンシューマのためのコードを記述する必要があります。 Producer

sh19910711 2024/04/22

"Apache Flume: リアルタイムなイベント処理のバックエンドとして広く利用 / Flafka: コードを記述することなくKafkaと連携 + KafkaをFlumeのソース（入力）やシンク（出力）、またはチャンネル（バッファ）として利用" 2016

リンク

【Iceberg 1.5新機能】viewの紹介 - 共通メタデータ形式とバージョン管理が実現する新たな可能性 - 流沙河鎮

はじめに Iceberg view概要一般的なクエリエンジンにおけるviewの役割 Iceberg viewを使ってみる Iceberg viewのコンセプトメタデータ形式の共有 viewのバージョン管理 Iceberg viewの構成要素と仕組み View Metadata versionsフィールド representationsフィールド「create_changelog_view」プロシージャによるIcebergのCDC create_changelog_view create_changelog_viewの使い方引数アウトプット create_changelog_viewの実行例 Tips Carry-over Rows Pre/Post Update Images ユースケースのアイデアおわりに Appendix: Viewサポートに関連するPR はじめに 2024

sh19910711 2024/04/05

"Iceberg 1.5: viewの仕様を定めるIceberg View Specが定義され、いくつかのCatalog実装がviewの操作をサポート / create_changelog_view: viewを活かしたSparkのStored Prodecure + 行レベルの変更をキャプチャできるため、CDCを実装する上で役に立つ"

リンク

Snowflake Dynamic Tables による大規模ニアリアルタイム処理に向けた基礎検証 | TECH | NRI Digital

1．はじめに Snowflake を用いたデータ分析基盤の構築案件が増えており、筆者も参画しています。近年では扱うデータ量として、RAWデータ、および、ETL処理を行うデータに関しては、100TBオーダーからPBオーダーになってきています。担当案件でも、1年間でETL処理のパイプラインを通過するデータの総量は約１PBという目標で進めています。これだけのデータ量であっても、データの鮮度に関して、数年前から見ると高いレベルが求められている印象を受けます。担当しているプロジェクトでも目標値ではありますが、遅れが5分以内のニアリアルタイムでの鮮度を目指すという話が聞こえ始めました。一方、SnowflakeのETL処理向けの新機能として、Dynamic Tablesという機能がパブリックプレビューとして利用可能になっています。詳細は後続の章に記載しますが、データ変換の結果になる変換後テーブルを

sh19910711 2024/04/04

"Snowflake Dynamic Tables: ソースデータに更新がかかったときに、その変更を変換後テーブルにSnowflake側で自動で反映してくれる / サイズXSの場合、1.2GB/分あたりが、更新遅延5分以内を満たせるかどうかのボーダー" 2023

リンク

はてなブックマーク

タグ

関連タグで絞り込む (51)

streamingに関するsh19910711のブックマーク (150)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス