Rとhadoopに関するkimukou_26のブックマーク (2)
-
昨今、ビッグデータというキーワード、およびその関連技術は非常に注目を集めており﹁R言語﹂というフレーズを耳にする機会も多くなってきたように感じます。 本稿は利用例を通じてR言語の概要、イメージを掴んでいただくことに加え、R言語を取り巻く業界の動向についてご紹介することを目的としています。 利用例としては、私がとあるシステム運用において実施していた分析を簡略化した形でご紹介します。システム統計情報に対する分析事例なので、ITシステムの設計や運用に携わる方であれば目にすることの多い、なじみ深いデータ分析と言えるのではないでしょうか。 なお、本稿では統計についての数学的な解説は極力行わず、R言語の利用者目線でのご紹介に重点を置きます。 対象読者としては、 などを想定しています。 また、Rは統計的なデータ処理を行うCUIベースのプラットフォームであり、CUI操作、スクリプト言語の経験、統計学に対す
-
統計解析・データマイニングに特化した言語であるR言語。 Hadoop Streaming を使ったR言語でのMapReduce実装を以下に紹介。 Hadoop Streaming で標準入出力を用いデータの受け渡しを行い、files オプションでRの mapper, reducer を配布し実行。 例えば、WordCountはR言語のMapReduce実装で以下のように書ける。 mapper.r #!/usr/bin/Rscript con = file(description="stdin",open="r") while (length(line <- readLines(con, n = 1, warn = FALSE)) > 0) { line <- unlist(strsplit(line, "\t")) for(word in line){ cat(sprintf("%
-
1