単語と遊ぶ① 分布図を書いてみる 分布図を書くメソッドを以下のように定義しました。 通常、単語のベクトル表現は100次元とか300次元とかでモデルに学習させます。 それを次元圧縮して2次元に落とし込んだ後に可視化を行っています。 from sklearn.decomposition import PCA import matplotlib.pyplot as plt def draw_word_scatter(word, topn=30): """ 入力されたwordに似ている単語の分布図を描くためのメソッド """ # 似ている単語を求めるためにはGensim word2vecの以下の機能を利用 # model.most_similar(word, topn=topn) words = [x[0] for x in sorted(model.most_similar(word, topn
2015 - 10 - 24 Wikipedia(英語)をWord2Vecに突っ込む 今更Word2Vecシリーーズっ!2 用意するもの enwiki-*-pages-articles.xml.bz2 ここからダウンロードできる: Index of /enwiki/ 今回は2015-04-03のデータを使った Python 2.7 + gensim + pattern # patternのインストール $ pip install pattern 最初は Python 3でやってたけどpatternはまだ Python 3に対応してなかった。 ファイルの変換 最初に、 XML フォーマットをテキストフォーマットに変換する。この時にlemmatizeも同時に行う。 以下の スクリプト を作成する。 process_wiki.py #!/usr/bin/env python # -*- codi
プログラム HTML SCSS MarkDown Haml JavaScript └node.js C言語 └make C++ Ruby └gem └Nokogiri └sqlite3-ruby └ruby-opencv └railsインストール └rails └rails gem └devise └rails model └rails view └rails controller └Passenger └Capistrano └bootstrap └rbenv └ruby時間計測 └RSpec └Gviz └google search PHP └CodeIgniter └CGI R言語 └Rパッケージ └RMySQL └RUnicode └RStudio └RSRuby └Rグラフ └回帰分析 └rでsvm
From word2vec to doc2vec: an approach driven by Chinese restaurant process Posted on March 17, 2014 by Yingjie Miao. Google’s word2vec project has created lots of interests in the text mining community. It’s a neural network language model that is “both supervised and unsupervised”. Unsupervised in the sense that you only have to provide a big corpus, say English wiki. Supervised in the sense tha
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く