サクサク読めて、
アプリ限定の機能も多数!
アプリで開く
●はてなブックマークって?
●アプリ・拡張の紹介
●ユーザー登録
●ログイン
●ログアウト
トップへ戻る
総合
●人気
●新着
●
IT
●
最新ガジェット
●
自然科学
●
経済・金融
●
おもしろ
●
マンガ
●
ゲーム
●
はてなブログ︵総合︶
一般
●人気
●新着
●
社会ニュース
●
地域
●
国際
●
天気
●
グルメ
●
映画・音楽
●
スポーツ
●
はてな匿名ダイアリー
世の中
●人気
●新着
●
新型コロナウイルス
●
働き方
●
生き方
●
地域
●
医療・ヘルス
●
教育
●
はてな匿名ダイアリー
政治と経済
●人気
●新着
●
政治
●
経済・金融
●
企業
●
仕事・就職
●
マーケット
●
国際
●
はてなブログ︵政治と経済︶
暮らし
●人気
●新着
●
カルチャー・ライフスタイル
●
ファッション
●
運動・エクササイズ
●
結婚・子育て
●
住まい
●
グルメ
●
お金
●
はてなブログ︵暮らし︶
●
掃除・整理整頓
●
雑貨
●
買ってよかったもの
●
旅行
●
アウトドア
●
趣味
学び
●人気
●新着
●
人文科学
●
社会科学
●
自然科学
●
語学
●
ビジネス・経営学
●
デザイン
●
法律
●
本・書評
●
将棋・囲碁
●
はてなブログ︵学び︶
テクノロジー
●人気
●新着
●
IT
●
セキュリティ技術
●
はてなブログ︵テクノロジー︶
●
AI・機械学習
●
プログラミング
●
エンジニア
おもしろ
●人気
●新着
●
まとめ
●
ネタ
●
おもしろ
●
これはすごい
●
かわいい
●
雑学
●
癒やし
エンタメ
●人気
●新着
●
スポーツ
●
映画
●
音楽
●
アイドル
●
芸能
●
お笑い
●
サッカー
●
話題の動画
アニメとゲーム
●人気
●新着
●
マンガ
●
Webマンガ
●
ゲーム
●
任天堂
●
PlayStation
●
アニメ
●
バーチャルYouTuber
●
オタクカルチャー
●
おすすめ
都知事選
﹃Daichi Mochihashi Home Page﹄
●
人気
●
新着
●
すべて
3users
chasen.org/~daiti-m
2022年の年末に, 自然言語処理の実質的に全論文が集まる ACL anthologyの論文を﹁内容﹂で検索できるニューラル検索システム, "ACL2Vec" http://clml.ism.ac.jp/ACL2Vec/を公開しました。これは, 2021年の言語処理学会年次大会で発表した "Researcher2Vec" [PDF] の方法を, 2022年秋までのACL anthologyの内容が全て含まれている新しいデータセット, https://github.com/shauryr/ACL-anthology-corpus に対して適用したものです。 この方法は完全に統計的に動いており, 内部的には1000次元のニューラル文書ベクトルをSVDで効率的に計算し, 基本的な線形代数を用いて最適解を返すものになっています。 この方法を拡張して, Researcher2Vecにもあるように,
●
暮らし
●2023/01/07 14:34
●nlp
●paper
●search
●あとで読む
7users
chasen.org/~daiti-m
●
世の中
●2022/09/08 00:45
●機械学習
10users
chasen.org/~daiti-m
注: 上記のPDFは皆様にコメントをいただき, さらに良い教科書とするために許可を得て公開しています. ぜひ, コメントをお寄せください. 特に, 自然言語処理の初心者の人文系の方や, 社会科学系の方からのご意見を歓迎しています. NLPの専門家の方や理系の方も, お気づきの点がありましたら, ぜひお知らせください. コメントの宛先は, 目次ページの表紙, またはこのページの一番下にあるメールアドレスにお願いします. 内容的には, 初心者の方(特に人文系の方)でも理解できるように注意を払いましたが, 専門家に近い方でも楽しめるよう, レベルの高い話も脚注等で随所に盛り込んでいます. 図表が未完で??となっている明らかな箇所などは当方でも把握していますが, それ以外で誤っている点や, 説明がわかりにくい場所がありましたら, ぜひお知らせいただけましたら幸いです. その他, ご提案がありました
●
暮らし
●2022/08/18 05:58
●あとで読む
3users
chasen.org/~daiti-m
bhmm.py: Bayesian HMM in Python. Daichi Mochihashi The Institute of Statistical Mathematics, Tokyo $Id: index.html,v 1.3 2021/10/24 03:03:13 daichi Exp $ bhmm.py is a simple Python implementation of Bayesian (discrete) hidden Markov model (HMM). It is written basically for educational and research purposes, and implements standard forward filtering-backward sampling (Bayesian version of forward-ba
●
テクノロジー
●2021/10/24 19:00
●Python
15users
chasen.org/~daiti-m
Mikolov+(2013)の有名な Word2Vecの論文 では, 単語ベクトルを作る際に, "New York" や "Toronto Maple Leafs" (アイスホッケーチーム)の意味は要素である "new" や "maple" "leafs" とは基本的に 関係ないので, 先にフレーズを認識して "new_york", "toronto_maple_leafs" と 単語をまとめてからWord2Vecを適用する方法が述べられています。 もちろん固有表現認識(NER)を動かせばできますが, NERは事前に人が作成した教師データに依存する ため, 教師データを使わない方法として, word2vecの論文では単語vと単語wがフレーズとなる スコアを score(v,w) = (n(v,w) - δ)/(n(v)*n(w)) とする, という方法が述べられています((6)式)。 ここ
●
アニメとゲーム
●2021/04/14 16:54
4users
chasen.org/~daiti-m
●
世の中
●2019/05/16 04:59
●あとで読む
5users
chasen.org/~daiti-m
lda.py: LDA in Python. Daichi Mochihashi The Institute of Statistical Mathematics, Tokyo $Id: index.html,v 1.3 2018/12/09 16:14:16 daichi Exp $ lda.py is a Python/Cython implementation of a standard Gibbs sampling for the latent Dirichlet allocation (Blei+, 2003). This is a package basically for learning and extension; however, since it is written in Cython, it runs much faster than a pure Python
●
テクノロジー
●2018/12/13 00:58
●python
●あとで読む
11users
chasen.org/~daiti-m
●
学び
●2018/08/10 22:58
7users
chasen.org/~daiti-m
●
テクノロジー
●2018/08/06 09:33
●あとで読む
42users
chasen.org/~daiti-m
News: Kindle版の配信が4/26に始まりました. (2019/4/26) [Amazon Kindle] 大羽さん担当章に関する, 本サポートページの補足はこちらです. (2019年4月7日) Google Colaboratoryの実習用ノートブックを追加しました. (2019年3月14日) 無事発売されました. (2019年3月9日) [Amazon] [紀伊国屋書店] (正誤表) さまざまな分野でのガウス過程の例 天文学: "Finding Galaxies in the Shadows of Quasers with Gaussian Processes", Roman Garnett, Shirley Ho, Jeff Schneider, ICML 2015. 紹介スライド (持橋): gpgalaxy.pdf [paper] 生態学: "Fast and flexi
●
テクノロジー
●2018/04/03 10:58
●機械学習
●ガウス過程
●python
●book
●あとで読む
36users
chasen.org/~daiti-m
●
テクノロジー
●2018/02/07 21:03
●vae
●機械学習
●Stat
●統計
9users
chasen.org/~daiti-m
下で書いたような離散確率の時系列の他に, 特に社会科学などで, 観測値が ロジスティック正規分布に従っている場合が多くあると思います。 つまり具体的には, 観測値 y ∈ {1,0} (1:生起, 0:非生起)だとして, y 〜 Bernoulli(σ(x)) = Bernoulli (1 / (1 + exp(-x))) x 〜 N(0,σ2) になっているようなモデル。回帰モデルではxがさらに wTxと回帰になっている場合を考えますが, 議論は基本的に同じです。 これは多項分布の場合はいわゆる対数線形モデルで, 自然言語処理では通常 gradientを計算してL-BFGSやSGDなどの最適化で解くことが多いと思います。 ただし, 最適化の前提となる共変量xが既知ではなく, 学習途中に決まる 潜在変数だったりすると, 最適化してしまうと最初に変な局所解にトラップされて しまい, 学習
●
テクノロジー
●2017/05/01 19:27
●統計
17users
chasen.org/~daiti-m
●
テクノロジー
●2016/10/01 17:54
●word2vec
●機械学習
5users
chasen.org/~daiti-m
●
テクノロジー
●2016/09/11 23:35
●NLP
●機械学習
13users
chasen.org/~daiti-m
●
世の中
●2015/06/07 23:02
●あとで読む
4users
chasen.org/~daiti-m
●
エンタメ
●2014/06/14 13:49
●development
●*あとで
●音楽
●あとで読む
3users
chasen.org/~daiti-m
Daichi Mochihashi The Institute of Statistical Mathematics $Id: index.html,v 1.1 2013/06/28 13:02:38 daichi Exp $ rsm is a modified Python implementation of Replicated Softmax Model of Salakhutdinov and Hinton (2009) [PDF], a simple single-layer "Deep Net" for documents. This code is a modification to a Python implementation by Joerg Landthaler, http://www.fylance.de/rsm/, in several aspects: Incl
●
テクノロジー
●2013/09/22 13:25
7users
chasen.org/~daiti-m
●
テクノロジー
●2012/08/24 10:14
●nlp
●機械学習
●勉強
9users
chasen.org/~daiti-m
●
テクノロジー
●2012/03/19 23:03
●統計
11users
chasen.org/~daiti-m
●
テクノロジー
●2012/03/19 23:02
●NLP
●機械学習
●数学
●統計
42users
chasen.org/~daiti-m
1 § ¦ ¤ ¥招待論文 Invited Paper 統計的自然言語処理と機械学習・統計学の未来 Statistical natural language processing and Statistics in the future 持橋 大地 Daichi Mochihashi 統計数理研究所 モデリング研究系 Department of Statistical Modeling, The Institute of Statistical Mathematics daichi@ism.ac.jp, http://www.ism.ac.jp/˜daichi/ keywords: computational linguistics, statistics, statistical machine learning Summary This paper reviews the la
●
テクノロジー
●2012/02/27 21:57
●nlp
●機械学習
●自然言語処理
●論文
●machinelearning
●問題
●statistics
●language
●pdf
17users
chasen.org/~daiti-m
* NTT daichi@cslab.kecl.ntt.co.jp 2011 2011-3-10(Fri), z PDF : http://chasen.org/~daiti-m/paper/nlp2011semiseg.pdf – , “ ” z ( , , , ...) – ...(Brain damaged!) Twitter Blog z (“ ”,“ ”,“ ”...) – z ... CSJ (+, ACL2009) z , – : NPYLM (Nested Pitman-Yor LM) 1 2 10 50 100 200 NPYLM as a Semi-Markov model z Semi-Markov HMM (Murphy 02, Ostendorf 96) +MCMC z (n) BOS EOS Æ z , – “ ”, “ ” – “ ”Æ“ ”, “ ”Æ“
●
テクノロジー
●2011/10/06 15:48
●nlp
●pdf
3users
chasen.org/~daiti-m
前に日記で書いた, 自己組織化二分探索木であるSplay Treeは struct splay { splay *left; splay *right; void *item; }; というデータ構造を持っているため, データ構造へのポインタのきっかり3倍の 記憶容量を必要とする。 順番は多くの場合関係ないので, こうした動的なデータ構造には本来ハッシュを 使えばいいはず だが, 普通のハッシュでは不要なメモリが沢山確保される可能性があるため, スプレー木を使っていた。 ハッシュテーブルが1つなら大した問題ではないですが, テーブル自体が何万個も あったりすると, そのロスは膨大なものになります。 最近, 開発環境をCからC++に変えたため(理由はそのうち), Googleの提供している Memory-efficientな Google Sparse Hash が使えるようになったので,
●
テクノロジー
●2011/06/15 14:11
●C++
3users
chasen.org/~daiti-m
●
学び
●2011/03/09 16:11
●あとで読む
3users
chasen.org/~daiti-m
●
おもしろ
●2010/10/05 22:37
●neta
●ネタ
5users
chasen.org/~daiti-m
1週間ほど前に, 京大の Neubigさん から, FST上の教師なし単語分割ツール latticelm [LINK] の実装を公開した, との連絡をもらったので, 試してみました。 このツールは僕が前にやった教師なし形態素解析ができる他 (NTTではどうやっても 僕のコードは公開できないのですが), Neubigさん自身の研究 で, 音声認識結果の音素ラティスからの直接の言語モデル学習が可能なようです。 インストールには普通に OpenFST を configure; make してから, latticelm の ディレクトリでmakeを実行するだけ。以下は京大コーパスに対して実行してみた ものです。 sj205:~/work/neubig/latticelm% time ./latticelm -annealsteps 0 -unkn 5 -burnin 10 -samps 12 -p
●
世の中
●2010/10/04 19:47
4users
chasen.org/~daiti-m
●
テクノロジー
●2010/08/01 14:34
●zsh
4users
chasen.org/~daiti-m
Percy Liang の "Type-Based MCMC" (NAACL 2010) [PDF] を何回かに分けて読んでいて, ようやくほぼ理解できた。 これはすごい論文です。非常に基礎的な話で, 統計の専門ジャーナルにも余裕で 通る話だと思いましたが, NAACLという。Michael Jordanが第2(第3でなく)著者なので, 恐らく Jordan のテイストが結構入っているのだと思います。 よくこれだけの内容を8ページに書いたなぁ..というのが最初の感想で, ちなみに, かなりベイズ的な議論に慣れていないと, 普通の自然言語処理の人だとそもそも何を 言っているのかさっぱりわからないかも知れないと思いました。 少し前に情処論文誌でトンデモ査読をされて唖然としたので, 余計にそう思うのかもしれませんが..。 *1 内部のベイズ勉強会では別の話 ("Painless Unsuperv
●
暮らし
●2010/06/10 08:32
●NAACL
9users
chasen.org/~daiti-m
というわけで, 公開しました。 "lwlm, The Latent Words Language Model". http://chasen.org/~daiti-m/dist/lwlm/ 潜在語言語モデル(LWLM)は, 各単語の裏に隠れた﹁潜在語﹂を教師なしで推定すること のできる言語モデルです。 ソシュールの一般言語学講義を読んでいる方は, (論文の著者はそう書いていませんが) これは, ソシュールの﹁範列﹂の計算的な表現だということがすぐにわかるかと思います。その意味でも, 非常に面白い(&恐らく, NLPの他のタスクにも役立つ)モデルです。 詳しくは, 先日のMCMC研究会のスライド をご覧下さい。 EMNLP 2009の原論文 *1 では SRILM を使って近似的にやっているらしい(全ての可能な単語を考慮していないらしい) ですが, ここでは本当に全て真面目にベイズ推定してい
●
テクノロジー
●2010/03/20 16:51
●自然言語処理
●nlp
●研究
次のページ
このページはまだ
ブックマークされていません
このページを最初にブックマークしてみませんか?
﹃Daichi Mochihashi Home Page﹄の新着エントリーを見る
キーボードショートカット一覧
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く
●総合
●一般
●世の中
●政治と経済
●暮らし
●学び
●テクノロジー
●エンタメ
●アニメとゲーム
●おもしろ
●アプリ・拡張機能
●開発ブログ
●ヘルプ
●お問い合わせ
●ガイドライン
●利用規約
●プライバシーポリシー
●利用者情報の外部送信について
●ガイドライン
●利用規約
●プライバシーポリシー
●利用者情報の外部送信について
●公式アカウント
●ホットエントリー
●はてなブログ
●はてなブログPro
●人力検索はてな
●はてなブログ タグ
●はてなニュース
●ソレドコ
Copyright © 2005-2024 Hatena. All Rights Reserved.
設定を変更しましたx