タグ

Hadoopに関するhiroomiのブックマーク (81)

  • 保守サービスなどを高度化・効率化したビッグデータ分析---大阪ガス

    準グランプリを獲得した大阪ガス。受賞にあたって、情報通信部の綾部雅之部長は「社内にデータサイエンティストの専門組織を持っていることが評価されたと思う」と述べた。 同社の情報通信部にはビジネスアナリシスセンター(BAC)があり、10年以上にわたって経営に役立つデータ活用を手掛けてきた。具体的には、BACに所属するデータサイエンティストが、エネルギー事業やリビング事業といった事業部門に対して、ビッグデータを活用した事業提案や業務改善案などを提案しているのだ(図1)。採用されると、分析作業などに必要なコストを事業部門から受け取る。それがBACの「売り上げ」になる。

    保守サービスなどを高度化・効率化したビッグデータ分析---大阪ガス
  • 第1回 halookでHadoop/HBaseを可視化しよう | gihyo.jp

    この連載では、HadoopやHBaseのトラブルを解決する手順をご紹介します。第1回目となる今回は、連載のキーとなるツール「halook」を紹介します。「⁠halook」はオープンソースで開発しているHadoop/HBase用の可視化ツールで、トラブルの発生を可視化して把握し、原因究明するために利用できます。まずは「halook」の概要から紹介します。 Hadoop、HBaseの難しさ Hadoopは大量データの保存と分散処理のために、数十台~数千台のマシンを扱います。そのため、何かトラブルがあったときに、どこに原因があるのか突き止めるのが難しい場合が多く、あるいは、そもそもトラブルが起こっていることに気付くのが遅れてしまうこともあります。たとえば、次のような点が挙げられます。 データは正しく分散配置されているか 処理は分散して実行されているか 設定ミスをしていないか 問題の報告の難しさ

    第1回 halookでHadoop/HBaseを可視化しよう | gihyo.jp
  • 世界初! Hadoopとの連携を実現したCOBOL「NetCOBOL V10.5」を販売開始 : 富士通


    PRESS RELEASE 2012125   HadoopCOBOLNetCOBOL V10.5 181 COBOLApache Hadoop1COBOLNetCOBOL V10.5 Hadoop2COBOLNetCOBOLCOBOLHadoopCOBOL
    世界初! Hadoopとの連携を実現したCOBOL「NetCOBOL V10.5」を販売開始 : 富士通
  • アクセス解析システムの裏側 (公開用)

    Seminar report (Building a Linux server and AWS SDK for Ruby)Tamotsu Furuya

    アクセス解析システムの裏側 (公開用)
  • 「Hadoop Hacks」読んだ - たごもりすメモ


    Hadoop Hacks Hadoop Hacks 使posted with amazlet at 12.04.26           : 2139 Amazon.co.jp  () 100hack
    「Hadoop Hacks」読んだ - たごもりすメモ
  • "BigData"では何が問題なのか? - 急がば回れ、選ぶなら近道


      2011 2 1 Web 
    "BigData"では何が問題なのか? - 急がば回れ、選ぶなら近道
  • Hadoopは汎用機の夢を見るか? - 急がば回れ、選ぶなら近道


    Linux?Java?Object?? LinuxJavaObjectCOBOLOracle使SQL  OS
    Hadoopは汎用機の夢を見るか? - 急がば回れ、選ぶなら近道
    hiroomi
    hiroomi 2012/03/12
       

    Hadoop
     
  • EMC、「Isilon」NASでHDFSにネーティブ対応――企業のHadoop導入を後押し|ストレージ|トピックス|Computerworld


    EMC229NASEMC IsilonHadoopHDFSHadoop Distributed File SystemOSHadoopHadoop Isilon NASOSOneFS 6.5HDFSOneFS 6.5IsilonHDFSOneFS 6.5EMCHDFSOSNASIsilon Hadoop
  • 基幹バッチへのHadoop適用を進めるEMCの戦略 - @IT


    2012/01/26 EMC119Greenplum HD Enterprise EditionEEApache HadoopMapReduceMapRTechnologiesOEMEMCGreenplumWebMap Reduce 20119MapRTed Dunning
  • LDeNA 峠とログ収集・集計の話

    Bill Inmon – the “father of data warehouse” – has written 53 books published in nine languages. Bill’s latest adventure is the building of technology known as textual disambiguation – technology that reads raw text in a narrative format and allows the text to be placed in a conventional data base so that it can be analyzed by standard analytical technology, thereby creating unique business value f

    LDeNA 峠とログ収集・集計の話
  • 基幹バッチでHadoopを飼い慣らすノーチラスとEMCの提携


    119EMCHadoopEMCGreenplum HD EEHadoopHadoop Apache HadoopHadoop EMC    EMCGreenplum HD EE EMCGreenplum HD EEHadoopApache Hadoop100
    基幹バッチでHadoopを飼い慣らすノーチラスとEMCの提携
  • ログ解析についてつらつらと考えていること - wyukawa's diary


     Hadoop BtoC   FluentdFluentd使   JavaLog4j使 Apache
    ログ解析についてつらつらと考えていること - wyukawa's diary
  • Charming Python: Functional programming in Python, Part 3

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    Charming Python: Functional programming in Python, Part 3
  • [後編]次世代に向けベンダー連携進む


    Hadoop World NYC 2011HadoopHBaseDWH  HadoopHDFSNameNode HAMPI1MapReduce 2.00.23 Hadoop Hado
    [後編]次世代に向けベンダー連携進む
  • Hadoopを業務で使ってみました

    Hadoop is an open-source software framework for distributed storage and processing of large datasets across clusters of computers. It allows for the distributed processing of large datasets across clusters of nodes using simple programming models. Hadoop can distribute data and computations across a cluster of commodity machines and scale to thousands of nodes, handling failures in an automatic wa

    Hadoopを業務で使ってみました
  • 対策によって性能が改善


    Hadoop HadoopMapReduceMapperReducerShuffleShuffle 6Reducer6ReducerReducerReducerReducer
    対策によって性能が改善
  • 100万件では専用ツールが最速

    実際に構築するHadoopのシステムでは(a)インポートや(d)エクスポートのように、扱うデータ量に依存し、Hadoopのノード数を増やしても性能が向上しない処理があり、そこがボトルネックになり得る。いかに効率良くRDBMSからデータをインポート/エクスポートするかが非常に重要だ。 ここでは、(a)インポートに焦点を当て、「JDBCドライバを使用して標準SQLでアクセス」「米Clouderaが提供するデータ転送ツールsqoopを使用」「MySQLの独自機能を利用したダンプ」の3通りの方法を試した(図4)。

    100万件では専用ツールが最速
    hiroomi
    hiroomi 2011/08/24
    実用的な性能を得るには、RDBMSのダンプ系コマンドを試すのが基本
  • EMCはHadoopをどのように展開していくのか - @IT


    2011/08/12 EMC5HadoopEMC89Greenplum EMCMapReduceGreenplum HDCommunityEditionEnterprise EditionGreenplum HD Data Computing Appliance3 Greenplum HDMapRTechnologiesApache HadoopCEMCOEM35NameN
  • Microsoft、SQL ServerのHadoopサポートを発表 | エンタープライズ | マイコミジャーナル

    Microsoft Corporation MicrosoftSQL Serverチームは8月8日(米国時間)、コミュニティテクノロジープレビューとしての提供となるが、SQL ServerおよびSQL Server 2008 R2 Parallel Data Warehouse向けに「Hadoopコネクタ」の提供を近いうちに開始すると発表した。「Hadoopコネクタ」を利用することで従来よりもSQL ServerとHadoopとの連携が簡単になると説明がある。 ビジネスで処理すべきデータは肥大化の一途を辿っているという。この傾向は今後も加速すると見られており、膨大な量のデータのストア、管理、分析機能の提供が求められていると説明がある。しかもそうしたデータの80%は構造化されていないデータということだ。 「Parallel Data Warehouse News and Hadoop In

  • FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)


    FacebookHBaseFacebookHBase71FacebookJonathan Gray 使 Realtime Apache Hadoop at Facebook Hadoop/HBase使 MySQLHadoop Faceb
    FacebookがHBaseを大規模リアルタイム処理に利用している理由(前編)