髪を切った@HIROCASTERでございませう。 今日は巷で話題のfluentd(フルーエントディー)を使って、アクセスログを活用するための準備をしたいと思います。 簡単にfluentdを使って何をするのか 例えばこんなことという、知識や目的の準備です。 fluentd とは?Linuxサーバなどのログを集約するためのツールです。ログ形式は良くあるテキスト形式ではなく、JSON形式にて構造化された形で保存されるため、集約されたログデータを解析したりするのがとってもやりやすくなります。 従来のテキストデータで出力されるApacheのログなどを読み込んで、fluentdでリモートログサーバに飛ばして、集約保存することなんてことができます。 集約されたログデータを解析サーバで解析して、グラフで出力とかするわけです。 具体的にどういうことができるの?ログデータの活用は無限大なので、さまざまな事が想
HTTPアクセスログをHiveが読める書式への変換やその他必要なデータ変換などストリーム処理で行いつつ転送して最終的にHDFSに時間ごとに書き込むぜー、というシステムを作ってる途中なんだけど、だいたい部品が揃いつつあるところでいったんまとめて書き出してみて見落としがないかどうか考えてみるテスト。 実在のシステムとは異なる可能性があるので(特に後日これを読む人は)あまり真に受けないほうがよいです。あと解析処理自体はHadoop上でHiveでやるのが大前提で、そこにデータをもっていくまでがここに書く話です。 (12/1 考えた末、構成を変えることにしたのでエントリ後半に追記した。) 前提システム 既にscribeを使用したログ収集・配送・保管系がある。各Webサーバは scribeline を使用してログをストリーム転送する。 scribelineのprimaryサーバとして配送用サーバ、se
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く