サクサク読めて、アプリ限定の機能も多数！アプリで開くはてなブックマーク閉じる ●はてなブックマークって？●アプリ・拡張の紹介●ユーザー登録●

はてなブックマーク

総合 ●人気 ●新着 ● IT ● 最新ガジェット ● 自然科学 ● 経済・金融 ● おもしろ ● マンガ ● ゲーム ● はてなブログ︵総合︶一般 ●人気 ●新着 ● 社会ニュース ● 地域 ● 国際 ● 天気 ● グルメ ● 映画・音楽 ● スポーツ ● はてな匿名ダイアリー ●人気 ●新着 ● 新型コロナウイルス ● 働き方 ● 生き方 ● 地域 ● 医療・ヘルス ● 教育 ● はてな匿名ダイアリー政治と経済 ●人気 ●新着 ● 政治 ● 経済・金融 ● 企業 ● 仕事・就職 ● マーケット ● 国際 ● はてなブログ︵政治と経済︶暮らし ●人気 ●新着 ● カルチャー・ライフスタイル ● ファッション ● 運動・エクササイズ ● 結婚・子育て ● 住まい ● グルメ ● お金 ● はてなブログ︵暮らし︶ ● 掃除・整理整頓 ● 雑貨 ● 買ってよかったもの ● 旅行 ● アウトドア ● 趣味学び ●人気 ●新着 ● 人文科学 ● 社会科学 ● 自然科学 ● 語学 ● ビジネス・経営学 ● デザイン ● 法律 ● 本・書評 ● 将棋・囲碁 ● はてなブログ︵学び︶テクノロジー ●人気 ●新着 ● IT ● セキュリティ技術 ● はてなブログ︵テクノロジー︶ ● AI・機械学習 ● プログラミング ● エンジニアおもしろ ●人気 ●新着 ● まとめ ● ネタ ● おもしろ ● これはすごい ● かわいい ● 雑学 ● 癒やしエンタメ ●人気 ●新着 ● スポーツ ● 映画 ● 音楽 ● アイドル ● 芸能 ● お笑い ● サッカー ● 話題の動画アニメとゲーム ●人気 ●新着 ● マンガ ● Webマンガ ● ゲーム ● 任天堂 ● PlayStation ● アニメ ● バーチャルYouTuber ● オタクカルチャー ● 都知事選

﹃Daichi Mochihashi Home Page﹄

● 人気 ● 新着 ● すべて

mots quotidiens.

3users

chasen.org/~daiti-m 2022年の年末に, 自然言語処理の実質的に全論文が集まる ACL anthologyの論文を﹁内容﹂で検索できるニューラル検索システム, "ACL2Vec" http://clml.ism.ac.jp/ACL2Vec/を公開しました。これは, 2021年の言語処理学会年次大会で発表した "Researcher2Vec" [PDF] の方法を, 2022年秋までのACL anthologyの内容が全て含まれている新しいデータセット, https://github.com/shauryr/ACL-anthology-corpus に対して適用したものです。この方法は完全に統計的に動いており, 内部的には1000次元のニューラル文書ベクトルをSVDで効率的に計算し, 基本的な線形代数を用いて最適解を返すものになっています。この方法を拡張して, Researcher2Vecにもあるように, ● 暮らし ●2023/01/07 14:34 ●nlp ●paper ●search ●あとで読む

﹁見えないデータ﹂を推定する - 持橋大地 - 小石川中等教育学校スーパーサイエンス・ハイスクール 2022-9-7 (水)

7users

chasen.org/~daiti-m ● 世の中 ●2022/09/08 00:45 ●機械学習

岩波書店﹃統計的テキストモデル﹄サポートページ

10users

chasen.org/~daiti-m 注: 上記のPDFは皆様にコメントをいただき, さらに良い教科書とするために許可を得て公開しています. ぜひ, コメントをお寄せください. 特に, 自然言語処理の初心者の人文系の方や, 社会科学系の方からのご意見を歓迎しています. NLPの専門家の方や理系の方も, お気づきの点がありましたら, ぜひお知らせください. コメントの宛先は, 目次ページの表紙, またはこのページの一番下にあるメールアドレスにお願いします. 内容的には, 初心者の方(特に人文系の方)でも理解できるように注意を払いましたが, 専門家に近い方でも楽しめるよう, レベルの高い話も脚注等で随所に盛り込んでいます. 図表が未完で??となっている明らかな箇所などは当方でも把握していますが, それ以外で誤っている点や, 説明がわかりにくい場所がありましたら, ぜひお知らせいただけましたら幸いです. その他, ご提案がありました ● 暮らし ●2022/08/18 05:58 ●あとで読む

Bayesian HMM in Python

3users

chasen.org/~daiti-m bhmm.py: Bayesian HMM in Python. Daichi Mochihashi The Institute of Statistical Mathematics, Tokyo $Id: index.html,v 1.3 2021/10/24 03:03:13 daichi Exp $ bhmm.py is a simple Python implementation of Bayesian (discrete) hidden Markov model (HMM). It is written basically for educational and research purposes, and implements standard forward filtering-backward sampling (Bayesian version of forward-ba ● テクノロジー ●2021/10/24 19:00 ●Python

mots quotidiens.

15users

chasen.org/~daiti-m Mikolov+(2013)の有名な Word2Vecの論文では, 単語ベクトルを作る際に, "New York" や "Toronto Maple Leafs" (アイスホッケーチーム)の意味は要素である "new" や "maple" "leafs" とは基本的に関係ないので, 先にフレーズを認識して "new_york", "toronto_maple_leafs" と単語をまとめてからWord2Vecを適用する方法が述べられています。もちろん固有表現認識(NER)を動かせばできますが, NERは事前に人が作成した教師データに依存するため, 教師データを使わない方法として, word2vecの論文では単語vと単語wがフレーズとなるスコアを score(v,w) = (n(v,w) - δ)/(n(v)*n(w)) とする, という方法が述べられています((6)式)。ここ ● アニメとゲーム ●2021/04/14 16:54

http://chasen.org/~daiti-m/paper/ismstat-lstm.pdf

4users

chasen.org/~daiti-m ● 世の中 ●2019/05/16 04:59 ●あとで読む

LDA in Python

5users

chasen.org/~daiti-m lda.py: LDA in Python. Daichi Mochihashi The Institute of Statistical Mathematics, Tokyo $Id: index.html,v 1.3 2018/12/09 16:14:16 daichi Exp $ lda.py is a Python/Cython implementation of a standard Gibbs sampling for the latent Dirichlet allocation (Blei+, 2003). This is a package basically for learning and extension; however, since it is written in Cython, it runs much faster than a pure Python ● テクノロジー ●2018/12/13 00:58 ●python ●あとで読む

http://chasen.org/~daiti-m/paper/MLwakate-2018-nlp.pdf

11users

chasen.org/~daiti-m ● 学び ●2018/08/10 22:58

http://chasen.org/~daiti-m/paper/SNLP10sentence.pdf

7users

chasen.org/~daiti-m ● テクノロジー ●2018/08/06 09:33 ●あとで読む

MLPシリーズ﹃ガウス過程と機械学習﹄サポートページ

42users

chasen.org/~daiti-m News: Kindle版の配信が4/26に始まりました. (2019/4/26) [Amazon Kindle] 大羽さん担当章に関する, 本サポートページの補足はこちらです. (2019年4月7日) Google Colaboratoryの実習用ノートブックを追加しました. (2019年3月14日) 無事発売されました. (2019年3月9日) [Amazon] [紀伊国屋書店] (正誤表) さまざまな分野でのガウス過程の例天文学: "Finding Galaxies in the Shadows of Quasers with Gaussian Processes", Roman Garnett, Shirley Ho, Jeff Schneider, ICML 2015. 紹介スライド (持橋): gpgalaxy.pdf [paper] 生態学: "Fast and flexi ● テクノロジー ●2018/04/03 10:58 ●機械学習 ●ガウス過程 ●python ●book ●あとで読む

http://chasen.org/~daiti-m/paper/vb-to-vae.pdf

36users

chasen.org/~daiti-m ● テクノロジー ●2018/02/07 21:03 ●vae ●機械学習 ●Stat ●統計

mots quotidiens.

9users

chasen.org/~daiti-m 下で書いたような離散確率の時系列の他に, 特に社会科学などで, 観測値がロジスティック正規分布に従っている場合が多くあると思います。つまり具体的には, 観測値 y ∈ {1,0} (1:生起, 0:非生起)だとして, y 〜 Bernoulli(σ(x)) = Bernoulli (1 / (1 + exp(-x))) x 〜 N(0,σ2) になっているようなモデル。回帰モデルではxがさらに wTxと回帰になっている場合を考えますが, 議論は基本的に同じです。これは多項分布の場合はいわゆる対数線形モデルで, 自然言語処理では通常 gradientを計算してL-BFGSやSGDなどの最適化で解くことが多いと思います。ただし, 最適化の前提となる共変量xが既知ではなく, 学習途中に決まる潜在変数だったりすると, 最適化してしまうと最初に変な局所解にトラップされてしまい, 学習 ● テクノロジー ●2017/05/01 19:27 ●統計

A Latent Variable Model Approach to PMI-based Word Embeddings

17users

chasen.org/~daiti-m ● テクノロジー ●2016/10/01 17:54 ●word2vec ●機械学習

A Latent Variable Model Approach to PMI-based Word Embeddings

5users

chasen.org/~daiti-m ● テクノロジー ●2016/09/11 23:35 ●NLP ●機械学習

http://chasen.org/~daiti-m/paper/daichi15topicmodel-for-ecology.pdf

13users

chasen.org/~daiti-m ● 世の中 ●2015/06/07 23:02 ●あとで読む

http://chasen.org/~daiti-m/paper/ISMopen2014-langmusique.pdf

4users

chasen.org/~daiti-m ● エンタメ ●2014/06/14 13:49 ●development ●*あとで ●音楽 ●あとで読む

rsm, the Replicated Softmax Model.

3users

chasen.org/~daiti-m Daichi Mochihashi The Institute of Statistical Mathematics $Id: index.html,v 1.1 2013/06/28 13:02:38 daichi Exp $ rsm is a modified Python implementation of Replicated Softmax Model of Salakhutdinov and Hinton (2009) [PDF], a simple single-layer "Deep Net" for documents. This code is a modification to a Python implementation by Joerg Landthaler, http://www.fylance.de/rsm/, in several aspects: Incl ● テクノロジー ●2013/09/22 13:25

http://chasen.org/~daiti-m/paper/jsai12nlp-future.pdf

7users

chasen.org/~daiti-m ● テクノロジー ●2012/08/24 10:14 ●nlp ●機械学習 ●勉強

最近のベイズ理論の進展と応用 (III) ノンパラメトリックベイズ

9users

chasen.org/~daiti-m ● テクノロジー ●2012/03/19 23:03 ●統計

ノンパラメトリックベイズ法による言語モデル

11users

chasen.org/~daiti-m ● テクノロジー ●2012/03/19 23:02 ●NLP ●機械学習 ●数学 ●統計

統計的自然言語処理と機械学習・統計学の未来

42users

chasen.org/~daiti-m 1 § ¦ ¤ ¥招待論文 Invited Paper 統計的自然言語処理と機械学習・統計学の未来 Statistical natural language processing and Statistics in the future 持橋大地 Daichi Mochihashi 統計数理研究所モデリング研究系 Department of Statistical Modeling, The Institute of Statistical Mathematics daichi@ism.ac.jp, http://www.ism.ac.jp/˜daichi/ keywords: computational linguistics, statistics, statistical machine learning Summary This paper reviews the la ● テクノロジー ●2012/02/27 21:57 ●nlp ●機械学習 ●自然言語処理 ●論文 ●machinelearning ●問題 ●statistics ●language ●pdf

条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析

17users

chasen.org/~daiti-m * NTT daichi@cslab.kecl.ntt.co.jp 2011 2011-3-10(Fri), z PDF : http://chasen.org/~daiti-m/paper/nlp2011semiseg.pdf – , “ ” z ( , , , ...) – ...(Brain damaged!) Twitter Blog z (“ ”,“ ”,“ ”...) – z ... CSJ (+, ACL2009) z , – : NPYLM (Nested Pitman-Yor LM) 1 2 10 50 100 200 NPYLM as a Semi-Markov model z Semi-Markov HMM (Murphy 02, Ostendorf 96) +MCMC z (n) BOS EOS Æ z , – “ ”, “ ” – “ ”Æ“ ”, “ ”Æ“ ● テクノロジー ●2011/10/06 15:48 ●nlp ●pdf

mots quotidiens.

3users

chasen.org/~daiti-m 前に日記で書いた, 自己組織化二分探索木であるSplay Treeは struct splay { splay *left; splay *right; void *item; }; というデータ構造を持っているため, データ構造へのポインタのきっかり3倍の記憶容量を必要とする。順番は多くの場合関係ないので, こうした動的なデータ構造には本来ハッシュを使えばいいはずだが, 普通のハッシュでは不要なメモリが沢山確保される可能性があるため, スプレー木を使っていた。ハッシュテーブルが1つなら大した問題ではないですが, テーブル自体が何万個もあったりすると, そのロスは膨大なものになります。最近, 開発環境をCからC++に変えたため(理由はそのうち), Googleの提供している Memory-efficientな Google Sparse Hash が使えるようになったので, ● テクノロジー ●2011/06/15 14:11 ●C++

http://chasen.org/~daiti-m/paper/nlp2011semiseg.pdf

3users

chasen.org/~daiti-m ● 学び ●2011/03/09 16:11 ●あとで読む

http://chasen.org/~daiti-m/diary/image/bayesian.png

3users

chasen.org/~daiti-m ● おもしろ ●2010/10/05 22:37 ●neta ●ネタ

mots quotidiens. LatticeLM

5users

chasen.org/~daiti-m 1週間ほど前に, 京大の Neubigさんから, FST上の教師なし単語分割ツール latticelm [LINK] の実装を公開した, との連絡をもらったので, 試してみました。このツールは僕が前にやった教師なし形態素解析ができる他 (NTTではどうやっても僕のコードは公開できないのですが), Neubigさん自身の研究で, 音声認識結果の音素ラティスからの直接の言語モデル学習が可能なようです。インストールには普通に OpenFST を configure; make してから, latticelm のディレクトリでmakeを実行するだけ。以下は京大コーパスに対して実行してみたものです。 sj205:~/work/neubig/latticelm% time ./latticelm -annealsteps 0 -unkn 5 -burnin 10 -samps 12 -p ● 世の中 ●2010/10/04 19:47

http://chasen.org/~daiti-m/text/zsh-exec.html

4users

chasen.org/~daiti-m ● テクノロジー ●2010/08/01 14:34 ●zsh

Type based MCMC: mots quotidiens.

4users

chasen.org/~daiti-m Percy Liang の "Type-Based MCMC" (NAACL 2010) [PDF] を何回かに分けて読んでいて, ようやくほぼ理解できた。これはすごい論文です。非常に基礎的な話で, 統計の専門ジャーナルにも余裕で通る話だと思いましたが, NAACLという。Michael Jordanが第2(第3でなく)著者なので, 恐らく Jordan のテイストが結構入っているのだと思います。よくこれだけの内容を8ページに書いたなぁ..というのが最初の感想で, ちなみに, かなりベイズ的な議論に慣れていないと, 普通の自然言語処理の人だとそもそも何を言っているのかさっぱりわからないかも知れないと思いました。少し前に情処論文誌でトンデモ査読をされて唖然としたので, 余計にそう思うのかもしれませんが..。 *1 内部のベイズ勉強会では別の話 ("Painless Unsuperv ● 暮らし ●2010/06/10 08:32 ●NAACL

lwlm, The Latent Words Language Model. - mots quotidiens.

9users

chasen.org/~daiti-m というわけで, 公開しました。 "lwlm, The Latent Words Language Model". http://chasen.org/~daiti-m/dist/lwlm/ 潜在語言語モデル(LWLM)は, 各単語の裏に隠れた﹁潜在語﹂を教師なしで推定することのできる言語モデルです。ソシュールの一般言語学講義を読んでいる方は, (論文の著者はそう書いていませんが) これは, ソシュールの﹁範列﹂の計算的な表現だということがすぐにわかるかと思います。その意味でも, 非常に面白い(&恐らく, NLPの他のタスクにも役立つ)モデルです。詳しくは, 先日のMCMC研究会のスライドをご覧下さい。 EMNLP 2009の原論文 *1 では SRILM を使って近似的にやっているらしい(全ての可能な単語を考慮していないらしい) ですが, ここでは本当に全て真面目にベイズ推定してい ● テクノロジー ●2010/03/20 16:51 ●自然言語処理 ●nlp ●研究次のページ

このページはまだ
ブックマークされていません

このページを最初にブックマークしてみませんか？

﹃Daichi Mochihashi Home Page﹄の新着エントリーを見る

キーボードショートカット一覧

j次のブックマーク k前のブックマーク lあとで読む eコメント一覧を開く oページを開く ●総合 ●一般 ● ●政治と経済 ●暮らし ●学び ●テクノロジー ●エンタメ ●アニメとゲーム ●おもしろ ●アプリ・拡張機能 ●開発ブログ ●ヘルプ ●お問い合わせ ●ガイドライン ●利用規約 ●プライバシーポリシー ●利用者情報の外部送信について ●ガイドライン ●利用規約 ●プライバシーポリシー ●利用者情報の外部送信について ●公式アカウント ●ホットエントリー ●はてなブログ ●はてなブログPro ●人力検索はてな ●はてなブログタグ ●はてなニュース ●ソレドコ

はてなブックマーク

﹃Daichi Mochihashi Home Page﹄

mots quotidiens.

﹁見えないデータ﹂を推定する - 持橋大地 - 小石川中等教育学校スーパーサイエンス・ハイスクール 2022-9-7 (水)

岩波書店﹃統計的テキストモデル﹄サポートページ

Bayesian HMM in Python

mots quotidiens.

http://chasen.org/~daiti-m/paper/ismstat-lstm.pdf

LDA in Python

http://chasen.org/~daiti-m/paper/MLwakate-2018-nlp.pdf

http://chasen.org/~daiti-m/paper/SNLP10sentence.pdf

MLPシリーズ﹃ガウス過程と機械学習﹄サポートページ

http://chasen.org/~daiti-m/paper/vb-to-vae.pdf

mots quotidiens.

A Latent Variable Model Approach to PMI-based Word Embeddings

A Latent Variable Model Approach to PMI-based Word Embeddings

http://chasen.org/~daiti-m/paper/daichi15topicmodel-for-ecology.pdf

http://chasen.org/~daiti-m/paper/ISMopen2014-langmusique.pdf

rsm, the Replicated Softmax Model.

http://chasen.org/~daiti-m/paper/jsai12nlp-future.pdf

最近のベイズ理論の進展と応用 (III) ノンパラメトリックベイズ

ノンパラメトリックベイズ法による言語モデル

統計的自然言語処理と機械学習・統計学の未来

条件付確率場とベイズ階層言語モデルの統合による半教師あり形態素解析

mots quotidiens.

http://chasen.org/~daiti-m/paper/nlp2011semiseg.pdf

http://chasen.org/~daiti-m/diary/image/bayesian.png

mots quotidiens. LatticeLM

http://chasen.org/~daiti-m/text/zsh-exec.html

Type based MCMC: mots quotidiens.

lwlm, The Latent Words Language Model. - mots quotidiens.

このページはまだ
ブックマークされていません

キーボードショートカット一覧