Natural-Language-Processingに関するmasa8aurumのブックマーク (3)
-
ファイル検索したのに、なかなか該当ファイルが見つからないということがある。必死に探し回ってようやく見つけると、検索キーワードの送りがなや表記の揺れが原因でファイル検索で見つからなかったということも多々ある。例えば﹁引き換え﹂で検索していたが本文には﹁引換え﹂と書かれていた場合だ。今回、こうした表記揺れを吸収するために形態素解析を利用した簡単なファイル検索ツールを作ってみよう。 曖昧検索したところ - grepで見つけられなかったファイルも曖昧検索で見つけることができた 形態素解析で簡単表記揺れ吸収検索 ﹁形態素解析﹂とは単語辞書を利用して、文章を最小単位の単語に区切る技術だ。多くの形態素解析を行うツールでは、単語辞書を利用して単語のヨミガナを取得する機能がついている。この機能を使う事でちょっとした表記揺れを吸収することができる。 欠点としてはテキストと単語辞書を照合していくため動作速度は遅
-
はじめに この文書は、 Steven Bird, Ewan Klein, Edward Loper 著 萩原 正人、中山 敬広、水野 貴明 訳 ﹃入門 自然言語処理﹄ O'Reilly Japan, 2010. の第12章﹁Python による日本語自然言語処理﹂を、原書 Natural Language Processing withPython と同じ Creative Commons Attribution Noncommercial No Derivative Works 3.0 US License の下で公開するものです。 原書では主に英語を対象とした自然言語処理を取り扱っています。内容や考え方の多くは言語に依存しないものではありますが、単語の分かち書きをしない点や統語構造等の違いから、日本語を対象とする場合、いくつか気をつけなければいけない点があります。日本語を扱う場合にも
-
そもそも、マルコフ連鎖とは何なのか?全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。 しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ?コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った! 作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済み マルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。︵素晴らしい情報に感謝です!︶ MeCabを使ってマルコフ連鎖 一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ
-
1