サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Wikipedia
d.hatena.ne.jp/nokuno
気がつけば日本で2012年が終わろうという時間になっていたので、簡単に近況報告をば。 渡英しました。現在、ロンドンのFinchley Road駅近くのフラットに住んでいます。 転職しました。Swiftkeyというところで働いています。仕事では相変わらずIMEを作っています。「入門機械学習」を翻訳しました。今年は色々あって慌ただしくなりましたが、来年は落ち着いて実力をつけたりイギリス生活を楽しんだりしたいですね。ツイートする
Fast and Accurate K-means for Large Datasets by @nokunoFast and Accurate K-means for Large Datasets #nipsereading View more presentations from Yoh Okuno Iterative Learning for Reliable Crowdsourcing Systems @shuyo Why The Brain Separates Face Recognition From Object Recognition @takmin Linear submodular bandits and their application to diversified retrieval @tsubosaka The Kernel Beta Process by Mo
年末年始はIntroduction to Algorithmを読みながら、pythoonでアルゴリズムの勉強をしようと思います。というわけでまずは簡単なところからマージソートを書きました。 #!/usr/bin/python def merge(left,right): result = [] while left != [] and right != []: if left[0] < right[0]: result.append(left.pop(0)) else: result.append(right.pop(0)) result.extend(left) result.extend(right) return result def merge_sort(a): n = len(a) if n == 1: return a left = merge_sort(a[0:n/2]) r
というわけでバイナリアンに混じって発表してきました.x86/x64最適化勉強会3 : ATND nokuno C++でMicro Thread / Fiber / Coroutineを実装してみた 〜 espを強引に入れ替える〜久しぶりにゲーム開発の話をしました.楽しかった!Implementing MicroThread / Coroutine via esp-swap for Danmaku Shooting Games View more presentations from Yoh Okuno takehiro_t 分岐予測時代のswitch-caseif文は頻度の低いものから検査するほうが速い場合がある? 青木和麻呂 暗号実装最適化 − 暗号実装屋の不毛な戦いCamellia暗号の開発者 @NTTno title LEA命令を使った最適化 GCD(最大公約数)の最適化 herum
TokyoNLPも第9回となり,息の長い勉強会になってきました.今回は飛び入りでLT発表枠もできて,アドリブ感あふれる回になったと思います. 第9回自然言語処理勉強会 #TokyoNLP : ATND座席表 by @synbooさん第9回TokyoNLPの座席表 - sekicoco [セキココ] Jubatusの分散レコメンデーション by @unnonounoさんJubatusのリアルタイム分散レコメンデーション View more presentations from Yuya Unno 自己紹介 Jubatusの紹介 Jubatus : Distributed Online Machine Learning Framework — Jubatus 0.2.0-beta documentationJubatus 0.2.0 をリリースしました — Jubatus documentat
mixi Engineers’ Seminar #3 : ATND 機械学習の基礎と評判分析 by 高村大也 自己紹介 東工大のすずかけ台キャンパスにいます! 「すずかけ台には良い教授がたくさんいる」はポジティブと評判分析 著書:Amazon.co.jp: 言語処理のための機械学習入門 (自然言語処理シリーズ): 高村 大也, 奥村 学: 本 概要 コンテンツを入手→前処理→分類器→出力 前処理:形態素解析→品詞フィルタ,ストップワード削除 「すずかけ台には良い教授がたくさんいる」→すずかけ台 良い 教授 たくさん 分類器 ポジティブかネガティブか ナイーブベイズ分類器 確率的生成モデル 140文字制限は無視 ツイートの長さを決める(単語数) ポジティブかネガティブか決める 単語を選ぶ作業を長さ分だけ繰り返す P(ツイート,ポジ) > P(ツイート,ネガ) ならポジティブ,逆ならネガティブ
第3回Twitter研究会に後半から参加しました.今回もTwitterを中心として色々な発表があって,懇親会では色々な人と話ができてよかったと思います.第3回Twitter研究会公式サイトまた,会場では@synbooさん作成の座席表が活躍していました.今後は一般のイベントにも使えるようになるそうなので,2月のTokyoNLPのときには活用したいですね!第3回 Twitter 研究会の座席表 ビジネスおよびコンシューマ向けTwitter解析技術の紹介 by KDDI研究所 池田和史http://homepage3.nifty.com/toremoro/study/Twitter3/twitterconf3-ikeda.pdf Twitterのアジェンダ,可能性,対象 ソーシャルメディア分析技術 ビジネス向け:口コミマーケティングツール コンシューマ向け:TV視聴支援アプリケーション 口コミマ
エンジニアサポート新年会CROSSに参加し,データマイニングセッションのパネラーとして登壇しました.セッション|エンジニアサポート新年会2012 CROSSCROSS2012 自己紹介スライド View more presentations from Yoh Okuno データマイニングCROSS オープニングトーク by @hamadakoichiさん TokyoWebMining主催 DeNA:ソーシャルゲームのデータマイニングチーム立ち上げ Mobage:大量ユーザ・大規模データ データマイニングの3つの用途 定常的なアクセス解析 (KPI Views) アドホック解析 (Business Planning) サービス活用 (Recommendation, Advertisement) 大規模データ処理の技術基盤:Hadoop,HDFS,MapReduce,Pig,Hive,Maho
個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたのですが,$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます. 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは,perlでワンライナーを書くのが速いようです.$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき
1月27日(金)にベルサール新宿グランドで行われる,@nifty様によるエンジニアサポート新年会CROSSのデータマイニングセッションにパネラーとして参加します.参加団体としてTokyoNLPをご推薦いただいた,@hamadakoichiさんと@yokkunsさん,主催の@nifty_engineerさんにこの場を借りて感謝の意を表したいと思います.エンジニアサポート新年会2012 CROSSセッション|エンジニアサポート新年会2012 CROSS「エンジニアサポート新年会2012 CROSS(以下、新年会CROSS)」は、WEBテクノロジーに関わ る人たちが集まり、WEBの未来を語る勉強会です。新年会CROSSでは、主催者・参加者の皆さまとのつながりを活かし、「CROSS(クロス)」を テーマとし、「技術」、「年代」、「企業」の間で多くのコミュニケーションが生まれる機会を提供したい と考
表題の通り,Social IMEの共有辞書を公開しました.dictionary.tar.bz2 - nokuno - Dictionary data including Social IME, Wikipedia, MS-IME - nokunoの個人リポジトリ - Google Project Hosting 実際にはSocial IMEの辞書だけでなく,Wikipediaから括弧表現をマイニングしたものや,はてなキーワードをクリーニングしたもの,MS IMEのユーザ辞書をWebからクロールするスクリプトを含んでいます.各辞書の単語数は以下のとおりです. 辞書 Social IME Wikipedia Hatena 単語数 48k 137k 235k Social IMEに登録される単語やWikipediaからのマイニングで得られる単語には,多くのノイズが含まれています.このノイズを取り
入力メソッドワークショップ(別名IM飲み会)で「Social IMEの共有辞書をクリーニングしてみた」というタイトルで発表しました. WorkshopOnInputMethods2011 - chaime - ChaIME -- Term-based Yet Another Japanese Input Method Editor - Google Project Hosting 入力メソッド飲み会 2011 - [PARTAKE] Social IMEの共有辞書をクリーニングしてみた @nokuno発表資料をslideshareにアップロードしました.Social IMEの共有辞書をクリーニングしてみた View more presentations from Yoh Okuno 以下,他の人の発表についてのメモです. 機械学習による近代文語論説文への濁点の自動付与 岡さん 歴史的コーパ
表題の通り,Social IMEの共有辞書を公開しました.dictionary.tar.bz2 - nokuno - Dictionary data including Social IME, Wikipedia, MS-IME - nokunoの個人リポジトリ - Google Project Hosting 実際にはSocial IMEの辞書だけでなく,Wikipediaから括弧表現をマイニングしたものや,MS IMEのユーザ辞書をWebからクロールしたものを含んでいます.各辞書の単語数は以下のとおりです. 辞書 Social IME Wikipedia MS IME MS IME2 単語数 48k 137k 16k 86k Social IMEに登録される単語やWikipediaからのマイニングで得られる単語には,多くのノイズが含まれています.このノイズを取り除くために,特殊な方法で
EMNLP 2011 読み会を開催しました.会場はサイボウズさんです.いつもありがとうございます!ACL Anthology » D11EMNLP 2011 Exact Decoding of Phrase-based Translation Models through Lagrangian Relaxation by @nokuno統計的機械翻訳のデコーディングを速い!正確!な方法で解きましたという論文.手法としてはラグランジュ緩和を利用している.Exact Decoding of Phrase-based Translation Models through Lagrangian Relaxation #emnlpreading View more presentations from Yoh Okuno Introducing Tuning as Ranking by @ippei
さくさくテキストマイニングに参加しました.会場は数理システムさんです.第6回 さくさくテキストマイニング勉強会 : ATND ツイートからユーザをクラスタリングできる? @gepuro 自己紹介 階層的クラスタリング 文字バイグラムの出現頻度でクラスタリング(ウォード法) 普通は書き手の判別には5万字かかるが,今回は3万字〜4500字でも特徴的な結果が出た 相対度数で見てみた 非階層的クラスタリング K-meansクラスタリングを使ってみた テキストマイニングのイメージと実際 @Antibayes 自己紹介:転職しました 今何してるの?→Hadoop,ビッグデータ,…かっこいい! イメージと実体のギャップについて Hadoop:難しそう→Hiveなら簡単 ビッグデータ:夢の技術→統計的素養がないと活用できない クレンジング:後からできない.そもそもログ出力部分から作りなおす必要がある 統計
Googleの工藤さんとPFIの徳永さんがN文節最長一致法について議論している記事を見つけました.日本語入力におけるN文節最長一致とはなんなのか興味深かったので引用しておきます.Taku Kudo徳永さんの本のレビューをやりつつ、N文節最長一致について少しコメントを書きました。N文節最長一致についてはさんざんな言われようで、うまくいく原理はよくわからないとか、たまたまうまくいっているみたいな認識を持っている方が多いと思います。Mozcの開発を通じ、その心がわかったし、よくできてるんだなと感心しました。N文節最長一致は、ユーザの入力単位が文節であるという仮定を強く意識した手法です。換言すると、ユーザは自分の入力が常に1文節になることを期待しながら入力しているという仮定です。実はこれはあながち間違っていなくて、多くのユーザは無意識のうちに文節単位で入力しています。この仮定が常に正しのであれば、
第2回 データ構造と情報検索と言語処理勉強会 #DSIRNLP - [PARTAKE] 自然言語処理はじめました by @phylloさん自然言語処理はじめました - Ngramを数え上げまくるDSIRNLPで発表させていただきました - Negative/Positive Thinking 自己紹介:Negative/Positive Thinking 今日の概要:いろんな方法でN-gram頻度を数える N-gramとは? 隣り合うN個の塊のこと 単語n-gramや文字n-gramがある ナイーブな方法 ハッシュに入れて数える 問題:大規模テキストやNを大きくしたら? N-gramの異なり数はNに対して指数的に爆発する 解決法:N-gramをメモリに保存しない! Suffix Arrayを使った方法 入力文のSuffix Arrayを使った方法 メモリの節約になってる?:3*N+4byt
機械学習分野のトップカンファレンスの1つ,NIPS 2011で気になった論文をまとめました.NIPS 2011 Hogwild: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent Hashing Algorithms for Large-Scale Learning Bayesian Bias Mitigation for Crowdsourcing EigenNet: A Bayesian hybrid of generative and conditional models for sparse learning Learning Anchor Planes for Classification A Non-Parametric Approach to Dynamic Programming Fast a
groongaのイベントでVOYAGE GROUPさんに行って来ました!全文検索エンジンgroongaを囲む夕べ 2 #groonga : ATND「検索エンジンはなぜ見つけるのか」と著者の森大二郎さんのサインいただきました!Amazon.co.jp: 検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識: 森大二郎: 本 groonga村 須藤さん 最新版リリースされました 今日の内容 もう使っていいのか知りたい 最新情報を知りたい アルゴリズムを知りたい 困っていることがある 安定してるの? してます! 実績あり groongaのほうがよいこと 即時更新 データをDBMSで一元管理できる 普通のSQLで使える 他との違い あとでベンチマーク結果を紹介 使い方の違い 質問タイムは懇親会で groonga 全文検索エンジンライブラリ 連携相手:MySQLなど libgr
オライリー出版社さんから,「入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニック」というタイトルでソーシャルデータを対象としたデータマイニング,自然言語処理の書籍が発売されます.リンク先の通り,私も監訳という形で編集に参加させていただいております(五十音順で一番前に来てますが他意はありません).入門 ソーシャルデータ ―データマイニング、分析、可視化のテクニックO’Reilly Japan - 入門 ソーシャルデータ特に書籍中のコードは主にPythonで書かれており,NLTKを使っている部分もあるためそのあたりを重点的に担当させていただきました.具体的には,7章,8章の修正を行いました(各章は必ず1人が担当しているわけではありません).今回のお話は@overlastさんからいただき,大変よい経験になりました.今後もこのような形で技術と実践の間を橋渡ししていければと考えていま
次のページ
このページを最初にブックマークしてみませんか?
『d.hatena.ne.jp』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く