並列データ転送ツール『Embulk』リリース!
こんにちは。古橋です。
先日の*1 データ転送ミドルウェア勉強会で、新しいオープンソースツール Embulk をリリースしました。
Embulk, an open-source plugin-based parallel bulk data loader from Sadayuki Furuhashi
Embulk は、リアルタイムなログ収集では常識となった fluentd のバッチ版のようなツールで、ファイルやデータベースからデータを吸い出し、別のストレージやデータベースにロードするためのコンパクトなツールです。
fluentd と同様にプラグイン型のアーキテクチャを採用 しているため、RubyやJavaで簡単なコードを書くことで、様々なファイルフォーマットやストレージに対応することができます。一方で fluentd とは異なり、高速性やトランザクション制御、スキーマを使ったデータのバリデーション などにこだわっており、1発実行、あるいは日次や1時間毎に実行するバルク処理に特化しています。