Amazon Elastic MapReduceで日本語のwordcountを試したので、備忘録的な意味も込めてその時のメモをまとめます。pythonで書いてますが、形態素解析のライブラリがあればどの言語でも大丈夫だと思います。 目次 Amazon Elastic MapReduce Ruby Clientインストール hadoopの設定 形態素解析エンジンIgo用の辞書構築 bootstrap.sh作成 mapper.py作成 reducer.py作成 入力ファイル作成 jobflow作成 step追加 処理結果確認 jobflow停止 Amazon Elastic MapReduce Ruby Clientインストール http://aws.amazon.com/developertools/2264 からダウンロードしてきます。 $ wget http://elasticmapred
The ongoing progress in Artificial Intelligence is constantly expanding the realms of possibility, revolutionizing industries and societies on a global scale. The release of LLMs surged by 136% in 2023 compared to 2022, and this upward trend is projected to continue in 2024. Today, 44% of organizations are experimenting with generative AI, with 10% having […] Read blog post
業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という
Hadoopプロジェクトは3つの「サブプロジェクト」で構成されています。 Common:Hadoopの基本機能FileSystem、RPC、Serializationのライブラリ HDFS:分散ストレージを仮想的に1つに扱うためのファイルシステム MapReduce:膨大なデータセットをクラスタ上で分散処理するためのソフトウェアフレームワーク これらが、「Hadoopファミリ」の核であり、並列分散処理機構を支えています。それ以外の「関連プロジェクト」は2011年12月時点では下記のようになっています。 Avro:Commonの持つ機能を拡張したデータシリアライズシステム Cassandra:単一障害点のないスケーラブルなマルチマスタデータベース Chukwa:大規模な分散システムでのデータ収集システム HBase:大規模な構造化データをサポートする、スケーラブルな分散データベース Hive
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く