airflowに関するohbaryeのブックマーク (3)
-
こんにちは。 今年4月にエニグモに入社したデータエンジニアの谷元です。 この記事は Enigmo Advent Calendar 2020 の20日目の記事です。 目次 はじめに そもそも同期処理とは? Airflowによる同期処理 検証時のコード サンプルをAirflow画面で見ると? 同期遅延なし時のAirflowログ 同期遅延あり時のAirflowログ 同期タイムアウト時のAirflowログ 所感 最後に はじめに コロナ禍の中、皆さんどのようにお過ごしでしょうか。 私はリモートワークを続けてますが、自宅のリモートデスクワーク環境をすぐに整えなかったため、薄いクッションで座りながらローテーブルで3ヶ月経過した頃に身体の節々で悲鳴をあげました。猫背も加速... さて、エニグモでの仕事も半年以上経過し、データ分析基盤の開発運用保守やBI上でのデータ整備などを対応をさせていただいてますが、
-
電通デジタルでSREをしている神田です。 この記事は電通デジタルアドベントカレンダーの4日目の記事です。前回の記事は﹁Reactアプリケーション内でGoogle Analytics計測をする際、react-gaを使わず、gtag.jsを利用した方法とその選択理由﹂でした。 電通デジタルのいくつかの開発プロジェクトでは、データ処理のためのワークフローエンジンとしてAirflowが採用されています。 この記事では、Airflow 2.0で改善された機能の1つである、スケジューラーのHA(High Availability)対応について解説します。 Airflow 2.0で提供される機能について詳しく知りたい方はAirflow 2.0 Planningを参照してください。 そもそも、スケジューラーって何をしているの?スケジューラーは、DAGやタスクを監視し依存関係をもとに実行可能なTaskIns
-
最近バックグラウンドのジョブスケジューラとして使用しているのが、 Apache Airflow だ。 https://airflow.apache.org/ Pythonで複数ジョブ(Operator)の依存関係をDAGとしてDSL的に書けるのは魅力的だが、 一方でスケジューラーとしては、UI付きのcronだと思っていたら相当なハマりどころを感じたので、 同じくハマりそうな人や将来の自分に向けてAirfronのスケジューリングの知見を残しておきたいというのが趣旨。 TL;DR 以下の通り、ちゃんと公式でも書いてあるが、正直なところ自分でやってみないとわかりづらく、 ちゃんと補足してある資料があったので紹介しておく。 自分で試しつつ、以下の資料と照らし合わせて自分の認識が一致したことを再確認した。 airflow.apache.org towardsdatascience.com Airfl
-
1