IMEに関するShineSparkのブックマーク (3)
-
tomoemonさんが日本語n-gramのデータを探されているようなので、探されているものとは違うような気もするけれど、自分が作ったn-gramデータをアップしておきます。 作成手順は以下の通り。 1.Web上その他から、文章を適当に100万字採集。一応、URL、ブログの日付部分、青空文庫のルビなど、集計する意味がないと思われる部分は採集しないようにした。できるだけジャンルが偏らないようにした……つもり。採集した文章のリスト→n-gram_text_list.ods 2.すべての半角文字を全角に変換する。※どうせ英数記号は集計しない。 3.﹁.﹂﹁,﹂を﹁。﹂﹁、﹂に変換する。※句読点に﹁、﹂﹁。﹂ではなく、﹁,﹂﹁.﹂を使っている文章もあるので。 4.﹃Kanji2na﹄で漢字とカタカナをひらがなに変換する。 5.かなと句読点以外︵空白も含む︶を〓に置き換え、改行の手前に〓を入れる。〓が
-
iOS の日本語フリック入力などで実装されている﹁修飾キー省略入力﹂という機能について書きます。 次の記事に解説されています。 http://blog.pasonatech.co.jp/ohashi/16439.html ﹁しゆうてん﹂と入力すると、﹁充電﹂﹁終電﹂﹁重点﹂﹁終点﹂という候補を出してくれます。 普通なら、﹁充電﹂と入れる時には﹁しxゆxう てxん﹂︵x = ﹁小 ゛ ゜﹂キー︶と8回画面を押さないといけないところが、5回のフリックですみます。 隠し機能みたいなものですが、慣れると便利です。 失敗すると修正するのがやっかいなのですが、だんだんと感覚がつかめてきます。 この機能は単語に限らず、文章の変換時にも使えます。 たとえば、﹁しゆうてんかおわつた﹂と10フリックで入力すると、﹁充電が終わった﹂という候補が一番に出てきます。 今回は、この機能の一つの実装方法
-
私が日本語入力について思っていることを書いてみる。 自分としては、デフォルト以外の日本語入力システムとして、ATOK と Google 日本語入力ぐらい︵まあ、Baidu IME とかもあるが︶しかないのが心の底から残念でたまらない。 雑誌の特集などで、Google 日本語入力と ATOK に単語や文章を変換させて精度を比較しているものを見かける。まあ総合的には同じぐらいの結果になっている。だが、実際に長い間使っているとわかるのだが、Google 日本語入力の間違え方のほうが﹁理不尽﹂なのだ。どうしてこれがこうなる? と思わず言いたくなるような。その点、ATOK は弱い部分が前もってわかる。アニメやゲームなど、マニアックな変換には弱い。しかし、ATOK である程度日本語の文章を打ち慣れた人にとっては、そういう﹁難しいだろうな﹂と思うようなところは、打つ前からそのことがわかるものだ。 ATO
-
1