[B! Hadoop] kakku22のブックマーク

Pythonで大量データ処理！�PySparkを用いたデータ処理と分析のきほん

PyConJP2017の資料　Python Spark PySpark PyConJP 2017 Apache Spark

kakku22 2020/02/12

リンク

Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた（前編）

Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた︵前編︶最近ビッグデータ処理基盤として急速に注目を集めているのが﹁Apache Spark﹂です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアなのでしょうか？今年6月にSparkのコミッタに就任したNTTデータの猿田浩輔氏に聞きました。以下は猿田氏から伺ったSparkの紹介をまとめたものです。また、後編では猿田氏がコミッタになった経緯などもインタビューしました。 Hadoopでは複雑な処理に時間がかかる Sparkとはなにかの前に、まずはHadoopの話から始めさせてください。 Hadoopとは、ざっくり言うと分散処理フレームワーク﹁

kakku22 2015/08/05

spark
Hadoop

リンク

Asakusa on Spark - 急がば回れ、選ぶなら近道

Asakusa on Spark AsakusaがSpark上で動くようになりました。 Asakusa on Spark (Developer Preview) — Asakusa Framework Developer Preview 0.2.2 documentation すでに実際に本番に利用しています。ノーチラス・テクノロジーズがさくらインターネットにAsakusa Frameworkで開発した大規模データの高速処理基盤を導入し、顧客単位での精度の高い原価計算を実現高速処理基盤はApache Spark™で構築 | NAUTILUS OSSとしての公開を行いましたので、内容や位置づけをまとめておきます。例によってノーチラスは社内でいろんな意見は当然出ていますが、今回は概ね一致している感じです。パフォーマンス概ね﹁業務バッチ処理という観点で見れば、すべからくHadoopMapR

kakku22 2015/07/08

hadoop
spark

リンク

『GMO プライベート DMP でビッグデータ解析をするためにアプリクラウドで Apache Spark の検証をしてみた』の資料を公開しました - べにやまぶろぐ

Apache Spark を今後活用していくに当たって行ったプレ検証の結果について slideshare にアップロードしました。もう少し詳細な内部の実装や挙動を見ていかないとと思いつつ、いい加減ワードカウントも飽きてきたのでデータ分析にトライしていきたいと考えております。

kakku22 2015/04/23

リンク

Data Engineering at VOYAGE GROUP #jawsdays

#jawsdays 2015での発表スライドです。 http://jawsdays2015.jaws-ug.jp/speaker/suzuki/Read less

kakku22 2015/04/13

リンク

DMM inside

なぜDMMがweb3に参入したのか。Seamoon Protocolが目指す新たなエンタメ体験の未来とは

kakku22 2015/03/08

BigQuery 気になる

リンク

Spark MLlibではじめるスケーラブルな機械学習

JJUG ナイト・セミナー「機械学習・自然言語処理特集！」（2014/12/17）講演資料『Spark MLlibではじめるスケーラブルな機械学習』 NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス猿田浩輔 Read less

kakku22 2014/12/19

リンク

40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）

■Hadoopの理解にちょっと自信のない皆さんに贈る 40分でわかるHadoop徹底入門（Cloudera World Tokyo 2014 講演資料）日本Hadoopユーザー会濱野賢一朗／Kenichiro Hamano (NTTデータ)Read less

kakku22 2014/11/13

hadoop

リンク

Review: Instant Apache Hive Essentials How-to - たごもりすメモ

突然英語でメールがやってきてレビューしてくれないかと頼まれ、面白そうだから引き受けて読んでみた。日本語でしかレビュー記事書かないけど大丈夫？と確認したら大丈夫だといって電子書籍データをもらいました。すごいことやってる会社があるなあ。イギリスの(電子書籍専門の？)出版社みたいだけど。なおフォーマットは pdf, epub, mobi のどれでもダウンロードできる。すごい。日本はなぜこうじゃないの。で、読んだ。76ページの短い本。ざっくり言うと英語だけどすごく簡単な英語で書かれてて、きわめて簡単に読める。manとか普通に英語で読んでる人なら楽勝だと思う。読めば普通に導入からいろんなクエリを発行するところまで行ける。リファレンスには使えない*1けど、それはまあ、wikiを見ればいいんじゃないですかね。各トピックについてはかなり短いが、必ず前提になるテーブルの準備をするためのクエリ*2

kakku22 2014/01/21

リンク

Azkaban

Azkaban Azkaban is a batch workflow job scheduler created at LinkedIn to run their Hadoop Jobs. Often times there is a need to run a set of jobs and processes in a particular order within a workflow. Azkaban will resolve the ordering through job dependencies and provide an easy to use web user interface to maintain and track your workflows. Here are a few features: Compatible with any version of H

kakku22 2014/01/04

リンク

業界標準のHadoop認定資格 | Cloudera University

データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

kakku22 2013/11/18

Hadoop認定資格

リンク

基礎から解説！企業を変えるHadoop

﹁ビッグデータ﹂をスマートに処理をする新しい道具、それがオープンソースミドルウエアのApache Hadoop︵ハドゥープ︶です。このHadoopの力で新たな収益を獲得する企業が増えています。本連載ではこのHadoopを基礎から説明していきます。まず今さら聞けないHadoopの基本、もう一度おさらいしたいアーキテクチャーを解説。分散ファイルシステムの操作とMapReduce処理をコードで確認。ユースケースやクラスタ管理にも言及していきます。2012年に予定されている次期メジャーリリース0.23の情報などの最新トピックも取り込みます。目次

kakku22 2013/10/28

Hadoop

リンク

OSXにApache Hadoopをインストール - memorandum

Macboook Airなどのローカル環境でHadoopを気軽に試したいケースもあるかと思います。OSX1台だけでHadoopを使う場合の環境構築手順をまとめました。参考 - 公式サイト:Single Node Setup 環境 OSX 10.8.4 Apache Hadoop 1.1.2 Java 1.6 インストール手順 HomebrewでHadoopをインストールします。 brew install hadoop ssh認証用の鍵を作成します。 ssh-keygen -t rsa -P "" cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys ﹁システム環境設定﹂の﹁共有﹂で、リモートログインをオンにします。 localhostにパスワードなしでsshログインできることを確認します。 ssh localhost 設定ファイルを修正します。

kakku22 2013/10/28

Hadoop
Mac

リンク

http://bynatures.net/wordpress/1708/

kakku22 2013/10/28

リンク

ログ解析環境についてなんとなく書いてみる - wyukawa's diary

ふとログ解析環境についてなんとなく書いてみたくなったので書いてみる。データサイエンティストブームなるものがあると思いますが、データサイエンティストって言ったときに、Hadoop/Hiveあたりを使ってデータをきれいに整理して分析しやすいように加工するデータエンジニア︵某氏が命名︶と加工されたデータを使って分析するアナリストの2種類いると思うんですよね。両方できればもちろん良いんですけどさすがにそれは難しいので分業が必要です。ただアナリストもHadoopの運用ができる必要性は低いと思いますがSQLは書けた方が良いとは思います。ちなみに僕は仕事でログ解析周りを担当しており現状はアナリストではなくデータエンジニアですね。 KPIというか統計値は毎日レポーティングする仕組みは既にあるのですが新しい統計値を知りたいという要望もちょいちょいあります。最近は自社サービスも安定して運用されているので

kakku22 2013/10/15

リンク

Amazon Elastic MapReduce入門〜 Apache Mahoutでレコメンデーション！ | DevelopersIO

よく訓練されたアップル信者、都元です。Hadoop使ってますか。試しにHadoopを使ってみよう、と思った時に主に障害となるのが以下の3つです。 Hadoopのクラスタを組むために実機を複数用意するのが厄介。それをクラスタとして組み上げるのも厄介。 Hadoopの上で動かすアプリケーションをMapReduceで書くのが厄介。 Hadoopで処理するほどのビッグデータを用意するのが厄介。1つ目はAmazon Elastic MapReduce (EMR)を使う事でスマートに解決しましょう。2つ目については、オープンソースのMapReduceアプリケーションを使います。私が強い興味を持っている分野に﹁機械学習﹂というものがあります。機械学習とは、コンピュータにデータを分析させ、未知の情報についての予測をさせたり、人間の知能に近い機能を実現しようという試みです。今回は、この機械学習の各種アル

kakku22 2013/10/13

リンク

SQLライクにHadoop Hiveを使い倒す!

パーティションを利用する今回は少し凝ったテーブルを定義をしてみましょう。郵便番号データは毎月更新されるので、テーブル指定時にバージョンも指定できるようにします。このような場合、Hiveではパーティションを使います。以下に郵便番号を保存するテーブル「zip」を定義しますが、日付型DATEのパーティションverを設定するようにします。 hive> CREATE TABLE zip (zip STRING, pref INT, city STRING, town STRING) > PARTITIONED BY (ver DATE) > ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' > LINES TERMINATED BY '\n'; OK Time taken: 0.128 seconds

kakku22 2013/10/09

Hadoop
Hive

リンク

Hadoop＋Hive検証環境を構築してみる

Hadoop＋Hive検証環境を構築してみる：Hive――RDB使いのためのHadoopガイド（前編）（1/3 ページ） Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。

kakku22 2013/10/09

Hadoop
Hive

リンク

Hadoop Conference Japan 2011 Fall に行ってきた＆しゃべってきた - たごもりすメモ

なんかすごいイベントだった。User Group主催のイベントなのに2ホールを1日貸し切り(というか施設まるごと貸切)でキャパシティ1400人のイベントとかどういうこと。しかも無料参加なのにランチボックスとか飲み物とか出てた。意味がわからん。カネのあるところは違うということかー？ともあれとりあえず主催者の方々はお疲れさまでした！内容のサマリが読みたい人はこんなエントリを読んでないで、他の人がまとめてるものがあるのでそっちに行きましょう。しゃべってきたこっちを先に片付ける。ライトニングトークで時間もらったので、ライブドアでHadoopをこんなことに使ってるよ、そのためにこんなツールが欲しかったから作って使ってるよ、という話をしてきた。 Hadoop and subsystems in livedoor #Hcj11f View more presentations from tago

kakku22 2013/10/08

Hadoop

リンク

IBMからHadoopのアプライアンス PureData System for Hadoop がリリース | Unofficial DB2 BLOG

IBMがHadoopの「アプライアンス」型サーバを発表しました。 - IBM PureData System for Hadoop H1001 は企業における Hadoop の簡素化を支援します (製品発表レター) - IBM PureData System for Hadoop IBM Pure Data System for Hadoopは、IBM PureSystemsファミリーの最新製品です。この製品により、ユーザーはこれまで以上にスマートにシステムを簡素化し、迅速にビジネスの価値を創出し、ITの経済性を向上させることができます。特定のワークロードのためだけに設計されたPureData System for Hadoopは、スタンダードに基づいて専門家の知見を統合した製品で、IBM InfoSphere BigInsightsによるHadoopベースのソフトウェア、サーバー、および

kakku22 2013/10/07

リンク

はてなブックマーク

タグ

関連タグで絞り込む (49)

Hadoopに関するkakku22のブックマーク (47)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス