[B! MeCab] bongkuraのブックマーク

word2vecによる自然言語処理

Tomas Mikolovらによって提案されたニューラルネットワーク（CBOW, Skip-gram）のオープンソース実装word2vecについて、基本的な使い方を体験し、さらにその仕組みを学ぶ書籍です。基本的な使い方から、自分の好きなコーパスの作り方、登場の背景、仕組み、さらには応用例や弱点についてもコンパクトなボリュームで概観できます。付録にはword2vecの出力結果を主成分分析を使って可視化する方法について解説しています。著者の西尾さんによる本書の解題[リンク] はじめに 1章　word2vecを使ってみる書き換えてみよう 2章　コーパスを変えてみる text8 単語に分割する（MeCab） CSVからのコーパス作成 Facebook EPWING Wikipedia PDFからの抜き出しまとめ 3章　word2vecの生まれた理由文章の表現 4章　word2vecの仕組

bongkura 2014/05/17

MeCab
pdf

リンク

livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク

突然ですが，mecabの辞書 (mecab-ipadic) をデフォルトのまま使って，mecab意外と使えねぇとか文句言ってる悪い子はおらんかね？ mecab-ipadicは比較的お行儀のよい日本語をベースに作られているので，そのままでは web上の口語文体のテキストはうまく扱えないことがあります。本来は教師データを用意し，学習させるといった手法を使うのが正攻法だと思いますが，とりあえず名詞を充実させるだけでも実用度はだいぶ上がるでしょう。人間の話す言語には，動詞の語幹や名詞には日々新しく語彙が増えるけど，助詞や活用のルールは簡単には変化しない，という特性があります。特に﹁いま最もつぶやかれている単語ランキング﹂といった集計をするような場合は，名詞の範囲の切り出しさえ間違えなければそれなりの結果を出せることも多いのです。ただ，辞書への単語追加はここにある通り簡単にできるのですが，単語

bongkura 2011/05/24

MeCab

リンク

日本語テキストを扱うアプリを作るなら注目！·Mecab on iPhone MOONGIFT

Mecab on iPhoneはiPhone上で形態素解析エンジンであるMecabを利用するデモ&ライブラリ。 Mecab on iPhoneはiPhone用のフリーウェア︵ソースコードは公開されている︶。オンラインにはテキストコンテンツが溢れている。また、最も手軽に扱えるコンピュータ上のデータとしてテキストは筆頭にあげられるだろう。デモアプリそんなテキストコンテンツの内容を解析して扱う上で形態素解析は欠かすことができない。有名な形態素解析エンジンであるMecabをiPhone上で扱えるようにするライブラリ&デモアプリがMecab on iPhoneだ。 Mecab on iPhoneはiPhoneにStatic Libraryとして追加したMecabを使い、iPhone上で形態素解析を行うソフトウェアだ。Mecabをコンパイルし、それをデモアプリで読み込んで利用する。筆者環境ではシミ

bongkura 2011/01/12

MeCab
iphone

リンク

ダジャレ判定機作ったよ - aike’s blog

ダジャレが好きなのだ。本来関連のない言葉同士を自由に結びつけ、語感のリズムで羽ばたいてシニフィエの宇宙を再構築する、そんなおやじギャグはとてもいとおしい。だからぼくはダジャレのスキルを向上すべく日々研鑽しているのだ。そういつもダジャレのことばかり考えている。PDCAサイクルを回して技術をみがいていく。いやそれにはダジャレ度が定量的に計測可能でなくてはならない。そうだ、ダジャレ度を測定するための機械を作ろう。←いまここそんなわけでダジャレの上手さを評価するウェブサービスを作りました。もじった言葉ともとの言葉を比較して似ていると評価が高くなります。ダジャレというより、いわゆるボキャブラですね。ダジャレ判定機 (http://aikelab.net/dajare/) 文字列比較の仕組みはこんな感じです。・MeCabで形態素解析して漢字を発音通りのよみがなに変換する・大文字小

bongkura 2010/08/03

リンク

GREE Labs -オープンソーステクノロジー勉強会第2回 ―開催のご報告―

404 お探しのページは見つかりません GREE Engineering トップへ戻る

bongkura 2010/07/28

MeCab
nlp

リンク

MeCabで、キーワード抽出 - プログラマでありたい

形態素解析器として圧倒的な性能を誇るMeCabですが、出来る事は形態素解析にとどまりません。公式ページにも載っているように、辞書さえカスタマイズすればひらがな⇔カタカナ変換やAutoLinkの作成といったことまで出来ます。 WikipediaのデータとMeCabを使えば、高速なキーワード抽出が出来ないかなと思い試してみました。辞書の定義にコストを書けば、長いキーワードを優先して抽出する最長一致法が出来そうです。それが出来れば、辞書にキーワードを登録すればおっけいかなと思い実験です。準備・Mecabのインストール省略・Wikipediaのダウンロード wikipediaからコーパスの作成を参照・辞書生成用のCSV作成 xml2sqlで作ったpage.txtを変換します。この際、(曖昧さ回避)は除いておきます。併せて、カンマが入っている見出し文は、別のものに置き換えておくことc

bongkura 2010/07/28

リンク

Pythonでのキーワード抽出実装

初出: 2007/6/27 更新: 2007/7/1 文章からキーワードを抽出するスクリプトをPythonモジュールとして実装しました。分かち書きした上に、適切に複合語をつくり、さらに重要そうなものかどうかのスコアをつけます。アルゴリズムは、以下のサイトを参考にしました。 http://gensen.dl.itc.u-tokyo.ac.jp/ ここで紹介されている論文 * 中川裕志、森辰則、湯本紘彰: "出現頻度と連接頻度に基づく専門用語抽出",自然言語処理、Vol.10 No.1, pp. 27 - 45, 2003年1月 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf に掲載されているFLR法のみを実装しています。実行結果サンプルたとえば、こんなページの本文をテキストフ

bongkura 2010/07/28

リンク

Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた

« IIS のログをtail -f | メイン | Lingua::JA::Summarize 0.02 » 2006年04月26日キーワード抽出モジュールを作ってみた一昨日、同僚の竹迫さんに、文書内からのキーワード抽出技術について教えてもらっていた時、わざわざ TF-IDF注1用に別のコーパスを用意しなくても、MeCab だったら生起コストを辞書内に持っているんだから、それを使えばいいのではないか、という話になりました。竹迫さんがその日のうちに作ってくれたプロトタイプで、アルゴリズムの改善とパラメータのチューニングを行ったところ、十分な品質が出そうなので、書き直して公開することにしました。普通の Perl モジュールなので、 perl Makefile.PL && make && make install すれば使うことができます (15:50追記: すみません。 MeCab

bongkura 2010/07/28

リンク

MeCabのコマンドライン引数一覧とその実行例 | mwSoft

-r --rcfile 使用するリソースファイルを指定するリソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

bongkura 2010/07/26

リンク

TinySegmenterをiPhone（Objective-C）に移植してみました - Born Neet

Objective-Cの勉強がてら、辞書いらずの簡易形態素解析︵分かち書き︶ソフト、﹁TinySegmenter﹂をObjective-Cに移植してみました。ホントは人工無脳アプリを作ったタイミングでお披露目しようとしてましたが、飽きた︵！︶のでライブラリとして先に公開しちゃいます。 tnantoka's TinySegmenter.m at master - GitHub 使い方は簡単です。 CocoaOnigurumaをプロジェクトに組み込んだ後、 TinySegmenter.hとTinySegmenter.mをClassesに放り込んで下さい。あとは以下のようなコードで分ち書きができます。 #import "TinySegmenter.h" ‥ ‥ TinySegmenter* segmenter = [ [ TinySegmenter alloc ] init ]; NSA

bongkura 2010/07/22

リンク

全裸で形態素解析をするスクリプト - すぎゃーんメモ

ゲレンデがとけるほどくだらないスクリプト - すぎゃーんメモに引き続き、くだらないスクリプトを。今度は動詞の前に「全裸で」を挿入する。 #!/opt/local/bin/perl use strict; use warnings; use JSON 'decode_json'; use LWP::Simple 'get'; use Text::MeCab; use Readonly; Readonly::Scalar my $zenra => '全裸で'; # 引数に文章があればそれを対象に my $text = shift; if (defined $text) { print zenrize($text), "\n"; } # 引数指定が無い場合はWassrのPublic Timelineを使用する else { my $json = get 'http://api.wassr.jp

bongkura 2010/07/08

MeCab
perl

リンク

HugeDomains.com

Captcha security check srengine.com is for sale Please prove you're not a robot View Price Processing

bongkura 2010/05/17

MeCab
python

リンク

京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転改

KyTea(京都テキスト解析ツールキット)は京大のGraham Neubigさんが中心となって開発している単語分割&発音推定ツールである。私はかな漢字変換用の学習データを作るのにこれまではmecabを使っていたのだが、mecab-ipadicのデータには、そもそも読み推定に力が入ってない、という問題があった。形態素解析は文章を単語に区切ることと品詞を推定する事が主目的な感じなのでそこを期待するのはそもそも筋違いなのだが。かといって自分で作ろうにも、こういうものは学習用コーパスが必要なので、コードだけで簡単にどうにかできる問題ではない。コーパス作りはとても手間のかかる作業なので、気軽に週末に作れるようなものでもない。というわけで、根本的な解決は棚上げして、これまではmecabの解析結果を後付けで適当に確率的に揺らしてみたりとかしながら使ってきたのである。そこに新しくKyTeaが現れた。

bongkura 2010/05/14

リンク

MeCab: 品詞 ID

品詞IDの定義 $Id: posid.html 161 2008-02-03 09:58:46Z taku-ku $; 概要出力される素性(品詞)に任意の数値ID を付与することができます. 通常, 素性は文字列として表現されますが, 機械処理には向いていません. 数値ID に変換することで, 機械処理が容易になります. 素性にどの ID を割りあてるかは, ユーザが自由に定義することができます. 設定ファイル配布辞書のディレクトリにある pos-id.def を変更します. 1行が1つのマッピングルールに対応します. 各パターンは以下のフォーマットで記述します. マッチパターン ID という形式で記述します. マッピングルールは先頭から順に走査されて最初にマッチしたものが使われます. マッチパターンでは簡単な正規表現がを使うことができます. *: すべての文字列にマッチ (A

bongkura 2010/04/14

MeCab

リンク

MeCab: Yet Another Japanese Dependency Structure Analyzer

出力フォーマット $Id: format.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 MeCab は, ChaSen と同様, 出力のフォーマットを比較的自由に再定義することができます. また, 設定ファイルにフォーマットを複数記述しておき, 実行時にそれらを切り変えることが可能です. これは, MeCab 独自の機能です. 出力フォーマットの指定以下の 3つ出力フォーマットを変更することができます. node: 1つの形態素を出力, デフォルトは空文字 unk: 1つの未知語形態素を出力, デフォルトは node と同一フォーマット bos: 形態素解析の結果に先だって出力 (header 的役割), デフォルトは空文字 eos: 形態素解析の結果の後に出力 (footer 的役割), デフォルトは "EOS\n" 明示的に指定されない場合

bongkura 2010/04/14

リンク

クデラボ -KudeLab- » PHPでMeCabを使って形態素解析をするときのメモ

PHP で MeCabと言えば MeCab PHP extension を使うのが一般的だろうと思うけど、今回はそれを使わずにやってみようというお話。 extension を使えない環境での MeCab 使用に役に立つかも。 PHP で MeCab を使うときに面倒なのは、解析したい文章を直接システムコマンドの引数として渡すことができないところ。ファイル名なら引数として渡せるので、一旦ファイルに保存して、それを引数で渡して解析する・・・という方法が採れなくはないけど、なんか美しくない。やはり、ファイルなど使わず、そのまま直接解析させたい。そんなときは、結論から書くと、以下のようにすればいい。 $descriptorspec = array( 0 => array("pipe", "r") , 1 => array("pipe", "w") ); $process = p

bongkura 2010/04/14

MeCab
php

リンク

マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。

そもそも、マルコフ連鎖とは何なのか？全く聞いたこともなかった。そして、文章を要約するのはとっても高度なことだと思っていて、自分のレベルではその方法を、今まで思い付きもしなかった。しかし、以下のようなシンプルなRubyコードでそれが出来てしまうと知った時、目から鱗である...。一体、何がどうなっているのだ？コードを追いながら、マルコフ連鎖を利用するという発想の素晴らしさを知った！作業環境 MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8環境でインストール済みマルコフ連鎖に出逢う rssを流し読みしていると、以下の日記に目が止まった。︵素晴らしい情報に感謝です！︶ MeCabを使ってマルコフ連鎖一体何が出来るコードなのか、日記を読んだだけではピンと来なかっ

bongkura 2009/09/18

リンク

Blog - Mikula Beutl - SEO Consulting

This guide is the safest way to do a domain switch, you get all you need to change a blocked domain. What is a user flow and a user journey? There’s a macro view of a customer experience that we can analyze and partially control.

bongkura 2009/09/06

リンク

mecabにユーザ辞書を追加する方法 - nokunoの日記

CVSファイルを記述する工藤,1223,1223,6058,名詞,固有名詞,人名,名,*,*,くどう,クドウ,クドウ辞書をCSV形式からmecabの形式にコンパイルする/usr/local/libexec/mecab/mecab-dict-index -d/usr/local/lib/mecab/dic/ipadic -u mecab.dic -f utf-8 -t utf-8 mecab.csv ~/.mecabrc に以下を記述userdic = /home/foo/bar/mecab.dic MeCab: 単語の追加方法

bongkura 2009/08/10

MeCab

リンク

MeCabの辞書にはてなキーワードを追加しよう - 不可視点

MeCabは形態素解析のためのソフトウェアです。日本語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日本語や、正しく書かれた日本語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。というのも、一番広く使われているであろう自然言語処理技術は形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

bongkura 2009/06/01

リンク

はてなブックマーク

タグ

関連タグで絞り込む (26)

MeCabに関するbongkuraのブックマーク (29)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス