[B! Hadoop] hiroomiのブックマーク

保守サービスなどを高度化・効率化したビッグデータ分析---大阪ガス

準グランプリを獲得した大阪ガス。受賞にあたって、情報通信部の綾部雅之部長は「社内にデータサイエンティストの専門組織を持っていることが評価されたと思う」と述べた。同社の情報通信部にはビジネスアナリシスセンター（BAC）があり、10年以上にわたって経営に役立つデータ活用を手掛けてきた。具体的には、BACに所属するデータサイエンティストが、エネルギー事業やリビング事業といった事業部門に対して、ビッグデータを活用した事業提案や業務改善案などを提案しているのだ（図1）。採用されると、分析作業などに必要なコストを事業部門から受け取る。それがBACの「売り上げ」になる。

hiroomi 2013/09/04

Hadoop

リンク

第1回　halookでHadoop/HBaseを可視化しよう | gihyo.jp

この連載では、HadoopやHBaseのトラブルを解決する手順をご紹介します。第1回目となる今回は、本連載のキーとなるツール「halook」を紹介します。「⁠halook」はオープンソースで開発しているHadoop/HBase用の可視化ツールで、トラブルの発生を可視化して把握し、原因究明するために利用できます。まずは「halook」の概要から紹介します。 Hadoop、HBaseの難しさ Hadoopは大量データの保存と分散処理のために、数十台～数千台のマシンを扱います。そのため、何かトラブルがあったときに、どこに原因があるのか突き止めるのが難しい場合が多く、あるいは、そもそもトラブルが起こっていることに気付くのが遅れてしまうこともあります。たとえば、次のような点が挙げられます。データは正しく分散配置されているか処理は分散して実行されているか設定ミスをしていないか問題の報告の難しさ

hiroomi 2013/02/20

Hadoop

リンク

世界初！ Hadoopとの連携を実現したCOBOL「NetCOBOL V10.5」を販売開始 : 富士通

PRESS RELEASE 2012年12月5日富士通株式会社世界初！ Hadoopとの連携を実現したCOBOL﹁Net COBOL V10.5﹂を販売開始並列分散処理により、バッチ処理時間を従来の約18分の1に短縮当社は、COBOLバッチアプリケーションをApache Hadoop︵注1︶で並列分散処理し、バッチ処理時間を大幅に短縮する機能を追加したCOBOL開発・運用ソフトウェア﹁Net COBOL V10.5﹂を、本日より販売します。本製品は、Hadoopとの連携を実現した世界初︵注2︶のCOBOL開発・運用ソフトウェアです。﹁Net COBOL﹂で開発したバッチアプリケーションや他社のCOBOLで開発されたバッチアプリケーションを、再コンパイルによりHadoopで並列分散処理できるため、お客様は既存のCOBOLデータやアプリケーションに手を加えることなく、バッチ処理時間を大幅に

hiroomi 2012/12/05

Hadoop

リンク

アクセス解析システムの裏側（公開用）

Seminar report (Building a Linux server and AWS SDK for Ruby)Tamotsu Furuya

hiroomi 2012/09/24

hadoop

リンク

「Hadoop Hacks」読んだ - たごもりすメモ

﹁Hadoop Hacks﹂を著者陣のご高配を得てオライリー・ジャパンから献本いただきました。ありがとうございます。 Hadoop Hacks ―プロフェッショナルが使う実践テクニックposted with amazlet at 12.04.26中野猛山下真一猿田浩輔上新卓也小林隆オライリージャパン売り上げランキング: 2139 Amazon.co.jp で詳細を見るで、ざっと読んだ(自分でやってないところは眺めた程度)ので感想をざらっと。なんというか、さすがにちょっと扱う内容が広過ぎる＆プログラミングを避けられない箇所が多過ぎる感はあって、苦労したんだろうなー、という気がする。読んで﹁ああこれは役に立つよね﹂というのがだいぶ少なくてちょっと残念。100行単位でコードを書かないといけない内容をこういう本で﹁hack﹂といって紹介するのはやっぱりちょっときびしいなー

hiroomi 2012/04/26

hadoop

リンク

"BigData"では何が問題なのか？ - 急がば回れ、選ぶなら近道

”ビッグデータで奇跡が起こる” はいどうも。まず、個人的には楽天的な進歩史観には、まったく組しない。従って、突然に新技術ができて、なんか凄い事になる、というのはさらにまったく同意しない。すべからくブレイクスルーは課題解決により起こると思っているので、問題意識のないところに、こんなものできました的な発想は、基本的にプラスにならないことが多いと思っている。現状のビッグデータブームは2011年の秋口現在は完全にハイプになっており、バブルと言ってもいいと思う。印象として、十数年前のナノテク・ブームに似ている。とはいえ、過度の期待という側面を除けば、それなり効果もある部分もあり、”そこだけ”を見ていけばそれなりに効果はある︵と思う︶。大体において、今後は以下の二つのユースケース・カテゴリーに集約されると思う。すなわち、ビッグデータの拠り所はまずもって以下の2点だ。 1 Webのログ解析というか

hiroomi 2012/03/12

リンク

Hadoopは汎用機の夢を見るか？ - 急がば回れ、選ぶなら近道

オープン系の歴史は、基本的に汎用機との戦いでした。個人的にも自分の戦いも、わりとまじめに汎用機との戦いでした。Linux?おもちゃですね。Java?飲めるの？Object指向?品質高いの?　・・・まぁこんな感じでしたね。確かにLinuxはもはや標準になりました。Javaでの開発は普通になりました。Object指向以外の開発はまぁ普通にないですね。・・・しかし、残念ながら基幹バッチは未だに汎用機です。汎用機は未だに現役であり、基幹処理の根っこは、いまだ汎用機で動いています。信頼性は突出しているし、パフォーマンスもバッチ処理に関しては依然として最強だと言えるでしょう。新人COBOLな人のバッチが、ハイパーなOracle使いのSQLバッチを軽く凌駕する事は、まだ普通にあります。・・・なぜか？多重度が違いすぎますね。汎用機はハードウェアからOSレベルまですべて、多重度が上がる事を前提に処

hiroomi 2012/03/12

﹁ところが、おもしろいことに、バッチが極端に短くなると、いろいろ余波が出ます。あれもできるし、これもできるし・・・。﹂おっ、トヨタ生産方式の段取り時間の短縮がここで読めたとは。 ●Hadoop

リンク

EMC、「Isilon」NASでHDFSにネーティブ対応――企業のHadoop導入を後押し|ストレージ|トピックス|Computerworld

EMCジャパンは2月29日、同社のスケールアウト型NAS﹁EMC Isilon﹂において、Hadoopで利用される分散ファイルシステム﹁HDFS﹂︵Hadoop Distributed File System︶にOSレベルで対応し、製品提供を開始したことを発表した。エンタープライズ市場でのHadoop導入障壁を解消するとともに、同社のHadoopソリューションを強化する。今回、Isilon NASのOS最新版﹁OneFS 6.5﹂がHDFSをサポートし、OneFS 6.5を搭載したIsilonでHDFSが利用できるようになった。従来機種もOneFS 6.5へのバージョンアップにより対応する。EMCによれば、HDFSをネーティブ・サポート︵OSレベルで統合︶したスケールアウト型NASはIsilonが業界初となる。大規模分散処理フレームワークのHadoopは、大量のサーバ間をまたいで単一の

hiroomi 2012/03/01

Hadoop

リンク

基幹バッチへのHadoop適用を進めるEMCの戦略－＠IT

2012/01/26 EMCジャパンが1月19日に国内販売を開始した﹁Greenplum HD Enterprise Edition︵EE︶﹂とは、Apache Hadoopの一部を書き直すことで信頼性と速度を向上したMapReduce製品だ。米ベンチャーのMapRTechno logiesによる製品のOEMで、EMCは同社のGreenplum製品群の一部として取り込み、販売パートナーと協力してサポートを提供している。Webサービス、ビッグデータ解析に加え、企業の基幹系バッチ処理におけるMap Reduceの活用を意図している。この製品ではまず信頼性向上のための工夫が施されている。2011年9月に国内で同製品を説明した米MapRのチーフアプリケーションアーキテクト、テッド・ダニング︵Ted Dunning︶氏によると、﹁すべてのコンポーネントが冗長化され、いつでも再起動できる。スナップ

hiroomi 2012/01/30

Hadoop

リンク

LDeNA 峠とログ収集・集計の話

Bill Inmon – the “father of data warehouse” – has written 53 books published in nine languages. Bill’s latest adventure is the building of techno logy known as textual disambiguation – techno logy that reads raw text in a narrative format and allows the text to be placed in a conventional data base so that it can be analyzed by standard analytical techno logy, thereby creating unique business value f

hiroomi 2012/01/30

Hadoop

リンク

基幹バッチでHadoopを飼い慣らすノーチラスとEMCの提携

1月19日、EMCジャパンはエンタープライズ分野でのHadoopソリューション﹁EMCGreenplum HD EE﹂の販売を開始するとともに、Hadoop製品の開発を進めるノーチラス・テクノロジーとの協業を発表。基幹システムのでバッチ処理をHadoopで行なうソリューションを提供する。 Apache Hadoopと互換性のあるエンタープライズレディなHadoop 発表会の冒頭、EMCジャパンデータ・コンピューティング事業本部テクノロジー＆プロフェッショナルサービス部部長仲田聰氏は、同日発売を開始した﹁EMCGreenplum HD EE﹂について説明した。 EMCGreenplum HD EEは非構造化データ処理に最適化されたHadoop製品で、Apache Hadoopと100％の互換性を保ちつつ、パフォーマンスや信頼性を強化した実装になる。並列処理に最適化されたデータベ

hiroomi 2012/01/23

Hadoop

リンク

ログ解析についてつらつらと考えていること - wyukawa's diary

ログ解析についてつらつらと考えていることを書いてみたいと思います。 Hadoopを用いたログ解析によってマーケティングを変革し売り上げを向上させようという話はよくあります。この手の話はたいていBtoCで例としてはメールでレコメンドして商品を買ってもらうとかですね。ログ解析がどういうフローかというと、ログを埋め込んでログを収集して蓄積して解析してそのレポートを見て何らかの施策を打つ、という感じになります。図にするとこんな感じ今話題沸騰中の﹁Fluentd﹂はログ収集を担当します。といいつつ僕自身はFluentd使ったことないです。記事を読んだくらいです。ちなみにどれぐらい話題沸騰中かというとこれぐらい定員オーバーしてます。すごすぎ。クレジットカード現金化詐欺︻業界人が教える口コミ情報︼ログ埋め込みはJavaならLog4j使って埋め込んだりするでしょう。 Apacheのアクセスロ

hiroomi 2012/01/22

Hadoop

リンク

Charming Python: Functional programming in Python, Part 3

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

hiroomi 2012/01/19

Hadoop

リンク

［後編］次世代に向けベンダー連携進む

事例以外に﹁Hadoop World NYC 2011﹂で注目を集めたキーワードは、﹁次世代Hadoop﹂﹁エコシステム﹂﹁HBase﹂﹁既存DWHとの連携﹂などである。スケーラビリティーの強化続く次世代Hadoopはアーキテクチャーを改良し、より高いスケーラビリティー、信頼性、機能を実現する見込みである。例えば、名前空間とブロックストレージの管理を分離してスケーラビリティーを高める﹁HDFSフェデレーション﹂、マスターサーバーの可用性を向上させる﹁NameNode HA﹂、MPI︵メッセージ・パッシング・インタフェース︶などの分散処理インタフェースを利用できて1万台までスケールアウトが可能な﹁MapReduce 2.0﹂などを備える。これらの機能は、バージョン0.23に搭載する。いずれエンタープライズ領域で採用できるレベルに到達するだろう。﹁Hadoop開発は分裂しない﹂ Hado

hiroomi 2012/01/08

Hadoop

リンク

Hadoopを業務で使ってみました

Hadoop is an open-source software framework for distributed storage and processing of large datasets across clusters of computers. It allows for the distributed processing of large datasets across clusters of nodes using simple programming models. Hadoop can distribute data and computations across a cluster of commodity machines and scale to thousands of nodes, handling failures in an automatic wa

hiroomi 2012/01/05

Hadoop

リンク

対策によって性能が改善

次に、Hadoopが期待したほどスケールアウトしないときの対策を検証した。典型的な原因の一つは﹁キー分布の偏り﹂という現象で、数ノード規模のシステムでも影響が大きい。 HadoopのMapReduceには、Mapperの出力をReducerへ配布するShuffleという処理がある。Shuffleの際は取引先コードなどのキーを基にデータをとりまとめて配布する。全取引先から同量の仕入れを行う場合のように、キー分布が一様であれば、図6上のように各Reducerに均等にデータが配布される。しかし、特定の取引先からの仕入れが多いなどでキー分布に偏りがあると、図6下のように特定のReducerにデータが多く配布される。その結果、データが集中したReducerの処理時間が全体に影響し、性能が落ちる。キー分布に偏りがある状態でReducerを増やしても特定のReducerにデータが集中する点は同じなので

hiroomi 2011/08/30

Hadoop

リンク

100万件では専用ツールが最速

実際に構築するHadoopのシステムでは（a）インポートや（d）エクスポートのように、扱うデータ量に依存し、Hadoopのノード数を増やしても性能が向上しない処理があり、そこがボトルネックになり得る。いかに効率良くRDBMSからデータをインポート/エクスポートするかが非常に重要だ。ここでは、（a）インポートに焦点を当て、「JDBCドライバを使用して標準SQLでアクセス」「米Clouderaが提供するデータ転送ツールsqoopを使用」「MySQLの独自機能を利用したダンプ」の3通りの方法を試した（図4）。

hiroomi 2011/08/24

実用的な性能を得るには、RDBMSのダンプ系コマンドを試すのが基本

Hadoop

リンク

EMCはHadoopをどのように展開していくのか－＠IT

2011/08/12 米EMCが5月に発表したエンタープライズ向けHadoopの国内での一般提供は年末となる。EMCジャパンは8月9日に行ったGreenplum製品群に関する説明の場で、これを明らかにした。 EMCの提供するMapReduceアルゴリズム実装﹁Greenplum HD﹂は、既報のとおり無償の﹁CommunityEdition﹂、有償でサポートを含む﹁Enterprise Edition﹂、そしてハードウェアとソフトウェアを構成済みのアプライアンス﹁Greenplum HD Data Computing Appliance﹂の3つの形で提供される。 Greenplum HDは、MapRTechno logiesというベンチャー企業がApache HadoopをC言語で書き直したものを、EMCがOEM提供する製品。3～5倍のパフォーマンス向上が見込めるという。また、NameN

hiroomi 2011/08/12

Hadoop

リンク

Microsoft、SQL ServerのHadoopサポートを発表 | エンタープライズ | マイコミジャーナル

Microsoft Corporation MicrosoftのSQL Serverチームは8月8日(米国時間)、コミュニティテクノロジープレビューとしての提供となるが、SQL ServerおよびSQL Server 2008 R2 Parallel Data Warehouse向けに「Hadoopコネクタ」の提供を近いうちに開始すると発表した。「Hadoopコネクタ」を利用することで従来よりもSQL ServerとHadoopとの連携が簡単になると説明がある。ビジネスで処理すべきデータは肥大化の一途を辿っているという。この傾向は今後も加速すると見られており、膨大な量のデータのストア、管理、分析機能の提供が求められていると説明がある。しかもそうしたデータの80%は構造化されていないデータということだ。「Parallel Data Warehouse News and Hadoop In

hiroomi 2011/08/10

Hadoop

リンク

FacebookがHBaseを大規模リアルタイム処理に利用している理由（前編）

Facebookは大規模なデータ処理の基盤としてHBaseを利用しています。なぜFacebookはHBaseを用いているのか、どのように利用しているのでしょうか？7月1日に都内で行われた勉強会で、Facebookのソフトウェアエンジニアであるジョナサン・グレイ︵Jonathan Gray︶氏による解説が行われました。解説はほぼスライドの内容そのままでした。当日使われた日本語訳されたスライドが公開されているので、ポイントとなるページを紹介しましょう。 Realtime Apache Hadoop at Facebook なぜリアルタイムデータの分析に、Hadoop/HBaseを使うのか？ MySQLは安定しているが、分散システムとして設計されておらず、サイズにも上限がある。一方、Hadoopはスケーラブルだがプログラミングが難しく、ランダムな書き込みや読み込みに向いていない。 Faceb

hiroomi 2011/07/04

Hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (19)

Hadoopに関するhiroomiのブックマーク (81)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス