PyConJP2017の資料 Python Spark PySpark PyConJP 2017 Apache Spark
![Pythonで大量データ処理!�PySparkを用いたデータ処理と分析のきほん](https://cdn-ak-scissors.b.st-hatena.com/image/square/982e48f89cdc44f334be3121c359fab7e125e75d/height=288;version=1;width=512/https%3A%2F%2Ffiles.speakerdeck.com%2Fpresentations%2Fc9bdf6be220d4bf09a98dda8ef25d464%2Fslide_0.jpg%3F8525274)
PyConJP2017の資料 Python Spark PySpark PyConJP 2017 Apache Spark
Apache Spark を今後活用していくに当たって行ったプレ検証の結果について slideshare にアップロードしました。 もう少し詳細な内部の実装や挙動を見ていかないとと思いつつ、いい加減ワードカウントも飽きてきたのでデータ分析にトライしていきたいと考えております。
なぜDMMがweb3に参入したのか。Seamoon Protocolが目指す新たなエンタメ体験の未来とは
Azkaban Azkaban is a batch workflow job scheduler created at LinkedIn to run their Hadoop Jobs. Often times there is a need to run a set of jobs and processes in a particular order within a workflow. Azkaban will resolve the ordering through job dependencies and provide an easy to use web user interface to maintain and track your workflows. Here are a few features: Compatible with any version of H
パーティションを利用する 今回は少し凝ったテーブルを定義をしてみましょう。 郵便番号データは毎月更新されるので、テーブル指定時にバージョンも指定できるようにします。このような場合、Hiveではパーティションを使います。 以下に郵便番号を保存するテーブル「zip」を定義しますが、日付型DATEのパーティションverを設定するようにします。 hive> CREATE TABLE zip (zip STRING, pref INT, city STRING, town STRING) > PARTITIONED BY (ver DATE) > ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' > LINES TERMINATED BY '\n'; OK Time taken: 0.128 seconds
なんかすごいイベントだった。User Group主催のイベントなのに2ホールを1日貸し切り(というか施設まるごと貸切)でキャパシティ1400人のイベントとかどういうこと。しかも無料参加なのにランチボックスとか飲み物とか出てた。意味がわからん。カネのあるところは違うということかー? ともあれとりあえず主催者の方々はお疲れさまでした! 内容のサマリが読みたい人はこんなエントリを読んでないで、他の人がまとめてるものがあるのでそっちに行きましょう。 しゃべってきた こっちを先に片付ける。ライトニングトークで時間もらったので、ライブドアでHadoopをこんなことに使ってるよ、そのためにこんなツールが欲しかったから作って使ってるよ、という話をしてきた。 Hadoop and subsystems in livedoor #Hcj11f View more presentations from tago
IBMがHadoopの「アプライアンス」型サーバを発表しました。 - IBM PureData System for Hadoop H1001 は企業における Hadoop の簡素化を支援します (製品発表レター) - IBM PureData System for Hadoop IBM Pure Data System for Hadoopは、IBM PureSystemsファミリーの最新製品です。この製品により、ユーザーはこれまで以上にスマートにシステムを簡素化し、迅速にビジネスの価値を創出し、ITの経済性を向上させることができます。特定のワークロードのためだけに設計されたPureData System for Hadoopは、スタンダードに基づいて専門家の知見を統合した製品で、IBM InfoSphere BigInsightsによるHadoopベースのソフトウェア、サーバー、および
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く