[B! Hive] t_otodaのブックマーク

金融機関でのHive/Presto事例紹介

Hadoop/Spark Conference Japan 2016でのライトニングトークの資料 by Ryosuke Iwanaga (@riywo) Read less

t_otoda 2016/02/09

リンク

バッチ処理、ジョブ管理について書いてみる - wyukawa's diary

僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバーはジョブをsubmitするだけなので負荷はそんなにかからないとか、はあるけれど割と汎用的なのではないかと思います。そもそもバッチ処理、ジョブ管理について書かれたものはほとんど見た事がないので参考になれば嬉しいし、こういう良い方法もあるよ！とかあれば是非ブログ等に書いてほしいと思っております。最初に言っておくとバッチ処理、ジョブ管理において重要なのは障害時のリカバリのしやすさです。正常時はまあいいでしょ。なので例えば引数に日付を持てないようなバッチ書いたら辛いですし、LL言語で書く方がコンパイル、パッケージングとか楽です。CP

t_otoda 2015/06/17

リンク

Cloudera Impalaをサービスに組み込むときに苦労した話

HBase×Impalaで作るアドテク�「GMOプライベートDMP」@HBaseMeetupTokyo2015Summer

t_otoda 2014/11/01

impala
Hive

リンク

Treasure Dataでの大容量データベンチマーク - Qiita

あふれるデータ会社で、Treasure Dataを使った分析システムを作っている。ゲーム情報を収集して、ユーザーの体験向上に役立てるためだ。そのため、ユーザーの行動を細かく把握する必要がある。勢いデータ容量は増えてしまう。加えて、オンラインのゲームは、パッケージゲームと違い売って終わりではなく、その後何年にも渡って、サービスを提供する。そのため、ユーザーの行動ログは数億件に達することも珍しくない。 Treasure Dataでのログ分析先に書いたが、大量のログに対応するため、hadoopを利用した問題解決が様々な企業から提供され始めている。タイトルに有るTreasure Dataもその企業の一つだ。こちらからは、ログを送るだけでhadoopやhiveを用いた分析環境を提供してくれる。一方で、こちらが分析機材を用意するわけではないため、どのくらいの速度で分析できるかわからない。特に複雑な

t_otoda 2013/10/27

リンク

Hiveクエリチューニングメモ - 科学と非科学の迷宮

Hadoop本2版を買ったその一週間後にDeals of the day で半額セールやられて死にたくなったので腹いせに書くはじめにここに書いてあるのは全部参考リンク・文献からひっぱってきただけで、ほとんど全部検証してない。間違いがあればなるべく早めに更新するよう努力はするが、鵜呑みにして何が起きても自己責任で。 Hive のクエリチューニングに関するメモ書きである。以下のことは﹁書いていない﹂ Hadoop自体のチューニング Hive のクエリチューニング以外の話例えば、圧縮ファイルを Hive 上で扱うにはどうするかとか JOIN 一番左のテーブルに最も大きなテーブルを持ってくる一番左のテーブルがMRでいう入力データとして流れる。インナーテーブルのデータはメモリに保持される。同一 JOIN キー通常は1JOIN = 1 MR ジョブだが、同一の JOIN キーを使ってい

t_otoda 2012/02/24

リンク

はてなブックマーク

タグ

関連タグで絞り込む (12)

Hiveに関するt_otodaのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス