Hadoopとgoogleに関するpeketaminのブックマーク (2)
-
﹁BigQueryは120億行を5秒でフルスキャン可能﹂は本当か? 先日、kaheiさんがGoogle BigQuery︵Googleクラウドの大規模クエリサービス︶について、こんなエントリを書いていた。 とにかくパフォーマンスがすごい。︵Fluentd Meetupでの︶プレゼン中のデモで、ディスクに収められた5億件のデータをSQLでフルスキャンするのに3秒しかかからない。9億件のデータを正規表現を含んだSQLでスキャンしても、7秒で終わる︵これ、記憶がちょっとあいまい。もう少しかかったかも︶。これには驚いた。佐藤さんがGoogleに入社して一番驚いた技術が、一般公開される前のBigQueryだったと言っていたが、その気持ちはわかる。 From Fluentd Meetupに行ってきました これを読んだ時、BigQueryの検索スピードについてちょっと補足したくなった。確かにFluent
-
Hadoopは、グーグルが検索エンジン用に開発したバッチ処理システムを基に開発された、オープンソースソフトだ。グーグルが開発した分散ファイルシステム﹁Google File System︵GFS︶﹂を模した﹁Hadoop Distributed File System︵HD FS︶﹂と、データ処理機構﹁MapReduce﹂を模した﹁Hadoop MapReduce﹂で構成する。 米国では米VISAや米JPモルガン・チェースのような大手金融機関が、バッチ処理にHadoopを使用する。 そのHadoopがいよいよ、日本企業でも使われ始めた。例えば楽天は、ある商品に対するお薦め商品をリストアップする﹁レコメンド処理﹂にHadoopを使用する。NTTデータは、全国の渋滞情報をリアルタイムに可視化するシステムの構築にHadoopを採用した。三菱UFJインフォメーションテクノロジーもHadoopを使っ
-
1