タグ

MeCabに関するbongkuraのブックマーク (29)

  • word2vecによる自然言語処理

    Tomas Mikolovらによって提案されたニューラルネットワーク(CBOW, Skip-gram)のオープンソース実装word2vecについて、基的な使い方を体験し、さらにその仕組みを学ぶ書籍です。 基的な使い方から、自分の好きなコーパスの作り方、登場の背景、仕組み、さらには応用例や弱点についてもコンパクトなボリュームで概観できます。付録にはword2vecの出力結果を主成分分析を使って可視化する方法について解説しています。 著者の西尾さんによる書の解題[リンク] はじめに 1章 word2vecを使ってみる 書き換えてみよう 2章 コーパスを変えてみる text8 単語に分割する(MeCab) CSVからのコーパス作成 Facebook EPWING Wikipedia PDFからの抜き出し まとめ 3章 word2vecの生まれた理由 文章の表現 4章 word2vecの仕組

    word2vecによる自然言語処理
  • livedoor Techブログ : wikipediaのデータや顔文字辞書からmecabのユーザ辞書を作成するフレームワーク


    mecab (mecab-ipadic) 使mecab使 mecab-ipadic web使  
  • 日本語テキストを扱うアプリを作るなら注目!·Mecab on iPhone MOONGIFT


    Mecab on iPhoneiPhoneMecab& Mecab on iPhoneiPhone  MecabiPhone&Mecab on iPhone Mecab on iPhoneiPhoneStatic LibraryMecab使iPhoneMecab
    日本語テキストを扱うアプリを作るなら注目!·Mecab on iPhone MOONGIFT
  • ダジャレ判定機作ったよ - aike’s blog


       PDCA       (http://aikelab.net/dajare/)  MeCab 
    ダジャレ判定機作ったよ - aike’s blog
  • GREE Labs -オープンソーステクノロジー勉強会 第2回 ―開催のご報告―

    404 お探しのページは見つかりません GREE Engineering トップへ戻る

    GREE Labs -オープンソーステクノロジー勉強会 第2回 ―開催のご報告―
  • MeCabで、キーワード抽出 - プログラマでありたい


    MeCabAutoLink WikipediaMeCab使  Mecab  Wikipedia wikipedia CSV xml2sqlpage.txt () c
    MeCabで、キーワード抽出 - プログラマでありたい
  • Pythonでのキーワード抽出実装


    : 2007/6/27 : 2007/7/1 Python   http://gensen.dl.itc.u-tokyo.ac.jp/  * : "",Vol.10 No.1, pp. 27 - 45, 20031 http://www.r.dl.itc.u-tokyo.ac.jp/~nakagawa/academic-res/jnlp10-1.pdf FLR  
  • Kazuho@Cybozu Labs: キーワード抽出モジュールを作ってみた


    « IIS tail -f |  | Lingua::JA::Summarize 0.02 » 20060426   TF-IDF1MeCab 使   Perl  perl Makefile.PL && make && make install 使 (15:50:  MeCab
  • MeCabのコマンドライン引数一覧とその実行例 | mwSoft

    -r --rcfile 使用するリソースファイルを指定する リソースファイルとは、辞書ディレクトリに入っている「dicrc」ファイルを指します。 試しにシステム辞書の「dicrc」ファイルをコピーして、「dicrc2」というファイルを作り、その中の「; simple」の「EOS」を「eos」に書き換えます。するとこんな風になります。 // リソースを指定せずに実行 $ echo テスト | mecab -O simple テスト 名詞-サ変接続 EOS // リソースを改変したdic2に指定して実行 $ echo テスト | mecab -r dicrc2 -O simple -d /usr/local/lib/mecab/dic/naist-jdic テスト 名詞-サ変接続 eos 我が家の環境では、システム辞書ディレクトリをカレントディレクトリとした状態にするか、「-d」でシステム辞書

  • TinySegmenterをiPhone(Objective-C)に移植してみました - Born Neet


    Objective-C TinySegmenterObjective-C   tnantoka's TinySegmenter.m at master - GitHub 使 CocoaOniguruma TinySegmenter.hTinySegmenter.mClasses  #import "TinySegmenter.h"   TinySegmenter* segmenter = [ [ TinySegmenter alloc ] init ]; NSA
  • 全裸で形態素解析をするスクリプト - すぎゃーんメモ

    ゲレンデがとけるほどくだらないスクリプト - すぎゃーんメモに引き続き、くだらないスクリプトを。 今度は動詞の前に「全裸で」を挿入する。 #!/opt/local/bin/perl use strict; use warnings; use JSON 'decode_json'; use LWP::Simple 'get'; use Text::MeCab; use Readonly; Readonly::Scalar my $zenra => '全裸で'; # 引数に文章があればそれを対象に my $text = shift; if (defined $text) { print zenrize($text), "\n"; } # 引数指定が無い場合はWassrのPublic Timelineを使用する else { my $json = get 'http://api.wassr.jp

    全裸で形態素解析をするスクリプト - すぎゃーんメモ
  • HugeDomains.com

    Captcha security check srengine.com is for sale Please prove you're not a robot View Price Processing

  • 京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転 改

    KyTea(京都テキスト解析ツールキット)は京大のGraham Neubigさんが中心となって開発している単語分割&発音推定ツールである。 私はかな漢字変換用の学習データを作るのにこれまではmecabを使っていたのだが、mecab-ipadicのデータには、そもそも読み推定に力が入ってない、という問題があった。形態素解析は文章を単語に区切ることと品詞を推定する事が主目的な感じなのでそこを期待するのはそもそも筋違いなのだが。 かといって自分で作ろうにも、こういうものは学習用コーパスが必要なので、コードだけで簡単にどうにかできる問題ではない。コーパス作りはとても手間のかかる作業なので、気軽に週末に作れるようなものでもない。というわけで、根的な解決は棚上げして、これまではmecabの解析結果を後付けで適当に確率的に揺らしてみたりとかしながら使ってきたのである。 そこに新しくKyTeaが現れた。

    京都テキスト解析ツールキットを使ってみた - 射撃しつつ前転 改
  • MeCab: 品詞 ID

    品詞IDの定義 $Id: posid.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 出力される素性(品詞)に任意の数値ID を付与することができます. 通常, 素性は文字列として表現されますが, 機械処理には向いていません. 数値ID に変換することで, 機械処理が容易になります. 素性にどの ID を割りあてるかは, ユーザが自由に定義することができます. 設定ファイル 配布辞書のディレクトリにある pos-id.def を変更します. 1行が1つのマッピングルールに対応します. 各パターンは以下のフォーマットで 記述します. マッチパターン ID という形式で記述します. マッピングルールは先頭から順に走査されて 最初にマッチしたものが使われます. マッチパターンでは簡単な正規表現がを使うことができます. *: すべての文字列にマッチ (A

  • MeCab: Yet Another Japanese Dependency Structure Analyzer

    出力フォーマット $Id: format.html 161 2008-02-03 09:58:46Z taku-ku $; 概要 MeCab は, ChaSen と同様, 出力のフォーマットを比較的自由に再定義することができます. また, 設定ファイルにフォーマットを複数記述しておき, 実行時にそれらを 切り変えることが可能です. これは, MeCab 独自の機能です. 出力フォーマットの指定 以下の 3つ出力フォーマットを変更することができます. node: 1つの形態素を出力, デフォルトは空文字 unk: 1つの未知語形態素を出力, デフォルトは node と同一フォーマット bos: 形態素解析の結果に先だって出力 (header 的役割), デフォルトは空文字 eos: 形態素解析の結果の後に出力 (footer 的役割), デフォルトは "EOS\n" 明示的に指定されない場合

  • クデラボ -KudeLab- » PHPでMeCabを使って形態素解析をするときのメモ


    PHP  MeCab MeCab PHP extension 使使 extension 使 MeCab 使 PHP  MeCab 使  使  $descriptorspec = array( 0 => array("pipe", "r") , 1 => array("pipe", "w") ); $process = p
  • マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。


     Ruby...  MacBook OSX 10.5.7 ruby 1.8.6 (2008-08-11 patchlevel 287) [universal-darwin9.0] mecab utf8  rss MeCab使 
    マルコフ連鎖で日本語をもっともらしく要約する - ザリガニが見ていた...。
  • Blog - Mikula Beutl - SEO Consulting

    This guide is the safest way to do a domain switch, you get all you need to change a blocked domain. What is a user flow and a user journey? There’s a macro view of a customer experience that we can analyze and partially control.

    Blog - Mikula Beutl - SEO Consulting
  • mecabにユーザ辞書を追加する方法 - nokunoの日記

    CVSファイルを記述する工藤,1223,1223,6058,名詞,固有名詞,人名,名,*,*,くどう,クドウ,クドウ 辞書をCSV形式からmecabの形式にコンパイルする/usr/local/libexec/mecab/mecab-dict-index -d/usr/local/lib/mecab/dic/ipadic -u mecab.dic -f utf-8 -t utf-8 mecab.csv ~/.mecabrc に以下を記述userdic = /home/foo/bar/mecab.dic MeCab: 単語の追加方法

  • MeCabの辞書にはてなキーワードを追加しよう - 不可視点

    MeCabは形態素解析のためのソフトウェアです。日語を分かち書きするために使われるものとしては最も人気の高いものだと思われますが、チャットや掲示板に書き込まれるような崩した日語や、正しく書かれた日語でも新語を期待した通りに分かち書きしてくれないことがあります。これはMeCabの内部で使われている辞書が一般的な言葉を情報源としているわけではないことに関係があります。MeCabというか、より一般的な話ですが以下のような認識が一般的かと思われます。 というのも、一番広く使われているであろう自然言語処理技術形態素解析(単語分かち書き、と言ったほうがいいのかもしれない)であろうが、これは現在99%くらいの精度になっていて、すでに人間がやるより遙かに高精度で行えるのだが、これだけ高い精度が出せるのは新聞記事を相手にしたときだけであって、それは新聞記事をコーパスとして用いる機械学習により形態素解

    MeCabの辞書にはてなキーワードを追加しよう - 不可視点