[B! hadoop] ikeikeikeikeのブックマーク

ikeikeikeike id:ikeikeikeike

hadoopに関するikeikeikeikeのブックマーク (35)

Compiled Python UDFs for Impala
Numba-compiled Python UDFs for Impala (Impala Meetup 5/20/14)Uri Laserson
ikeikeikeike 2014/07/18
compiler

context

hive

hadoop

impala

python

impyla

const

c++
リンク
Impala
Apache Impala is the open source, native analytic database for open data and table formats. Follow us on Twitter at @ApacheImpala! Do BI-style Queries Impala provides low latency and high concurrency for BI/analytic queries on the Hadoop ecosystem, including Iceberg, open data formats, and most cloud storage options. Impala also scales linearly, even in multitenant environments. Unify Your Infrast
ikeikeikeike 2014/04/15
はい

impala

hadoop
リンク
Apache Parquet
Documentation Download Apache Parquet is an open source, column-oriented data file format designed for efficient data storage and retrieval. It provides efficient data compression and encoding schemes with enhanced performance to handle complex data in bulk. Parquet is available in multiple languages including Java, C++, Python, etc...
ikeikeikeike 2014/04/09
data

compression

encoding

hadoop

impala

parquet

file

columnar storage

format

column oriented database
リンク
Apache Hadoop 2.4.1 - File System Shell Guide
ikeikeikeike 2014/03/12
v2.3.0

hadoop

hdfs
リンク
Cloudera Impalaのアーキテクチャ
︵本ブログは若干古くなっているので、Impala情報ページをご覧下さい。比較的新しい情報をまとめています︶一人アドベントカレンダー25日目、最終日です。最終日はCloudera Impala︵以下Impala︶について。Impalaは分散クエリエンジンです。最近EMRでも利用できるようになりました。 Hiveとは何が違うのか、なぜHiveを高速化しなかったのかというような意見もあるようですが、その答えはClouderaの創業者でもあるMike Olsonが今週公開したブログ︵Impala v Hive︶に詳しく書かれています。かなり興味深い内容ですが、今のところ英語のみです。きっと日本語の記事もいずれ読めるようになるはず。。。さて、最終日はCloudera Impalaのアーキテクチャについて書いてみます。引用している資料はSlideshareでClouderaが公開しているものです
ikeikeikeike 2014/03/03
impala

hive

cloudera

hadoop
リンク
Cloudera Blog
The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post
ikeikeikeike 2014/02/25
hdfs

hadoop
リンク
Hue - Hadoop User Experience - The Apache Hadoop UI — Tutorial: Executing Hive or Impala Queries with Python
Tutorial: Executing Hive or Impala Queries with Python This post talks about Hue, a UI for making Apache Hadoop easier to use. Hue uses a various set of interfaces for communicating with the Hadoop components. This post describes how Hue is implementing the Apache HiveServer2 Thrift API for executing Hive queries and listing tables. The same interface can also be used for talking to Cloudera Impal
ikeikeikeike 2013/12/12
hive

impala

hadoop

Apache

home

Python

Hue
リンク
BPStudy#75 (2013/11/29 19:00〜)
お知らせ【重要なお知らせ】iOSアプリの運用および提供を2024年6月3日(月)を以て終了いたします。詳細はお知らせをご覧ください。お知らせ connpassではさらなる価値のあるデータを提供するため、イベントサーチAPIの提供方法の見直しを決定しました。2024年5月23日(木)より「企業・法人」「コミュニティ及び個人」向けの2プランを提供開始いたします。ご利用にあたっては利用申請及び審査がございます。詳細はヘルプページをご確認ください。
ikeikeikeike 2013/11/08
python

bpstudy

hadoop

wordpress
リンク
Facebook、分散SQLエンジン「Presto」公開。大規模データをMapReduce/Hiveの10倍効率よく処理すると
Facebookは、数ペタバイト級の大規模データに対しても、対話的にアドホックな問い合わせを可能にする分散SQLエンジン﹁Presto﹂を、オープンソースで公開しました。 PrestoはFacebook社内で大規模データの分析のために開発され、すでに同社社内使われているもの。 FacebookはPrestoを開発した背景として、大量のデータをHadoop/HDFSベースで保存したものの、バッチ指向のMapReduceではなく、リアルタイム性に優れた処理が必要になったためだと、次のように説明しています。 Facebook’s warehouse data is stored in a few large Hadoop/HDFS-based clusters. Hadoop MapReduce [2] and Hive are designed for large-scale, reliabl
ikeikeikeike 2013/11/08
Impalaはドコイッタネン比較して欲しいな

hive

facebook

hadoop

hdfs

sql

bigdata

db

database
リンク
ワザノバ | wazanova.jp
Follow @WazanovaNewshttp://engineering.linkedin.com/data-streams/apache-samza-linkedins-real-time-stream-processing-framework LinkedInのエンジニアブログで、分散ストリームプロセッシングフレームワークであるApach Samzaをオープンソース化したことを紹介してます。 LinkedInのリアルタイムアーキテクチャはKafkaに支えられ、アクティビティデータ、運営KPI、サービスコールのトレース、ログデータ、アプリのメッセージなどの取得に利用されている。 Samzaが実現しているストリームプロセッシングによるアウトプットの取得はバッチよりもかなり短い処理が期待できるが、ハードウェアの障害や分割/分散された環境で実現することは大きなチャレンジであった。 Hado
ikeikeikeike 2013/11/07
hadoop

weblog

hdfs

development

cpu

blog

Web
リンク
ほぼやけくそHive Hacks – OpenGroove
Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに﹁あれ、あのメモどこやったっけ﹂となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… ︵初めに書いておくと、この投稿長いです︶基本原則的なこと。 ●UPDATEは回避する処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは﹁高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない﹂というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理
ikeikeikeike 2013/10/22
hive

join

hadoop

impala
リンク
PythonからHDFSを操作する - 偏った言語信者の垂れ流し
HadoopのHDFS(分散ファイルシステム)にはWebHDFSというREST APIがあり、HTTPで操作できる。 WebHDFS REST API Pythonからこれを簡単に使うためのモジュールを探したところ、PyPIでWebHDFS、pywebhdfsの2つを見つけた。 WebHDFS 0.2.0 : Python Package Index pywebhdfs 0.4.1 : Python Package Index WebHDFSという名前のモジュールは、RENAMEとAPPENDの操作に対応してなくてコードもイマイチ。 pywebhdfsのほうはrequestsモジュールを使ってきれいに作られていて、ドキュメントもある。これが良さそう。 pywebhdfs 0.2.2 documentation — pywebhdfs 0.2.2 documentation pywebhdf
ikeikeikeike 2013/10/15
hadoop

dir

file

egg

coding

module

Python

HTTP

API

hdfs
リンク
MongoDBがHadoopとの統合強化。HiveでMongoDBデータへSQL問い合わせ可能、BSONをHDFS上に保存など
Integration of Hadoop and Mongo DB, Big Data’s Two Most Popular Techno logies, Gets Significant Upgrade | 10gen, the Mongo DB company Mongo DB Connector for Hadoopは、Hadoopへの入出力データとしてMongo DBを使えるようにするソフトウェアで、新バージョンでは主に以下の機能が追加されています。 Apache HiveからMongo DBのデータへSQLライクな問い合わせインクリメンタルなMapReduceジョブのサポートによる、アドホックな分析を容易に実現 Mongo DB BSONファイルをHadoop Distributed File System（HDFS）上に保存することで、データの移動を削減これにより以下のようなメリットが
ikeikeikeike 2013/08/22
ほー、んでインパラさんはどうなの

hadoop

database

IT

*あとで

Big Data

Publickey

mongodb

tech
リンク
Cloudera Impala発表資料 | 外道父の匠
11/26 の『Hadoopソースコードリーディング第13回』でCloudera Impalaの発表をしてきました。きっかけはTwitter上で、ビールの化身も◯すの外道父を呼べば？から始まって、１分かからず依頼ツィートが飛んできて引き受けた感じで、Twitterで数分で全てが完結する非常にフットワークの軽い業界になります。それでは、発表資料や補足などを書いていきます。リンク Eventbrite : Hadoopソースコードリーディング第13回 Twitter #hadoopreading togetter : Hadoopソースコードリーディング第13回まとめ Inside Impala Coordinator at HSCR 13th – Go ahead! by @repeatedly Inside Impala -Query Exec Engine- by @o
ikeikeikeike 2013/07/12
hive

hadoop

benchmark

impala

cloudera

performance

databases

外道父

search

負荷分散
リンク
TechCrunch | Startup and Technology News
Though Spotify never shared official numbers, it’s likely that Car Thing underperformed or was just not worth continued investment in today’s tighter economic market.
ikeikeikeike 2013/04/21
hive

hadoop

Amazon

aws

memo

Redshift
リンク
ドキュメント指向のNoSQLデータベース（CouchDB、MongoDB）編
書籍紹介本連載は下記書籍から第5章を基に、＠IT向けに再構成して掲載しています。目次序章ビッグデータの時代第1章NOSQLとは何か?第2章NOSQLのデータモデル第3章アーキテクチャの基本概念と技術第4章 HadoopはNOSQL?第5章主なNOSQLデータベース製品第6章NOSQLデータベースの選択基準第7章NOSQLを使うビジネス本連載は書籍﹃NOSQLの基礎知識﹄︵リックテレコム刊、ISBN‥978-4897978871︶で解説されている内容から一部を抜粋し、本連載向けに一部再編集して掲載したものです。書籍では、一般にNoSQLと呼ばれている各種データベース技術について、基本概念から主要なプロダクトの特性、ベンチマーク結果までを紹介しています。データモデルやアーキテクチャの違いといった基本概念から、各プロダクトの特徴を理解できる内容になっていま
ikeikeikeike 2013/03/28
おもろ

IBM

cassandra

hbase

database

db

hadoop

IT

*thresh25

KVS

Apache
リンク
mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog
こんにちは．最近ピクルス作りで精神統一をしている，たんぽぽグループ解析チームの石川有です．このブログではお馴染みのたんぽぽグループですが，"No More ﹁刺身の上にタンポポをのせる仕事﹂ - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています．その中で解析チームは，データ解析基盤の構築，データマイニング，データ解析の社内コンサルティングを行ない技術からの改善を担当しています．今回の記事では，mixi における解析基盤について簡単に触れたあと，その基盤における﹁刺身の上にタンポポをのせる仕事﹂をどう減らすかの2点について書きます． mixi の解析基盤まずは解析環境について，簡単にお話します．2012-08 現在 mixi では，主な解析用のツールとしては，Apache Hadoop, Hive を利用しています．またあわせて，自分など一部の人は，
ikeikeikeike 2012/08/09
hive

mixi

hadoop

Apache
リンク
MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に﹁Map-Reduce for Machine Learning on Multicore﹂としていくつかのアルゴリズムが紹介されています。そこで今回は、︵何番煎じか分かりませんが自分の理解のためにも︶この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form︵足し算で表現できる形︶になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時
ikeikeikeike 2012/05/28
mapreduce

mahout

analysis

hadoop

アルゴリズム
リンク
Asakusa Framework
Asakusa Frameworkとは、Hadoop上で大規模な基幹バッチ処理を行うためのフレームワークです。大容量データを多数のサーバーに分散し、並列処理させることで高速なデータ処理を実現しています。基幹バッチシステムに必要な開発環境・実行環境・運用環境を実装しているため、Asakusa Frameworkを使えば、複雑な業務処理もHadoopを意識せずに開発可能です。 2019年12月18日 Asakusa Framework 0.10.4 リリース Asakusa Framework 0.10.4 リリース本リリースの概要は以下のとおりです。 Asaksua Gradle Pluginが追加するMavenリポジトリのプロトコル変更 Asaksua Gradle Pluginがプロジェクトに対して追加するMavenリポジトリのURLプロトコルを http: から https:
ikeikeikeike 2012/01/19
asakusa

framework

hadoop

Hadoop

bigdata
リンク
klbostee/dumbo @ GitHub
Dumbo is a project that allows you to easily write and run Hadoop programs in Python (it’s named after Disney’s flying circus elephant, since the logo of Hadoop is an elephant and Python was named after the BBC series “Monty Python’s Flying Circus”). More generally, Dumbo can be considered a convenient Python API for writing MapReduce programs. def mapper(key, value): for word in value.split(): yi
ikeikeikeike 2012/01/17
hadoop

python
リンク
1 2 次のページ