このページの本文へ

前へ 1 2 次へ

夏休み終了直前! デジタル機器自由研究 第6回

OCRの精度に挑む! 日本語認識率を漱石の三四郎でチェックした

2012年08月28日 12時00分更新

文● 柳谷智宣

  • この記事をはてなブックマークに追加
  • 本文印刷

本文の誤認識率は0.6%
ルビの認識には難ありか


 稿OCR1JISURL

OCR認識したデータをチェック! 左が元ファイル、右がOCRの結果だ

縦書きでの英数字はほぼ全滅

 ルビは認識されているのだが、表示部分がまちまち。例えば「三四郎」には「さんしろう」ときちんと付いているが、「頓狂」の「とんきょう」は文節まるごとにかかって表示されている。さらに、本文4行目は途中で改行になっているのだが、なぜか均等表示になっている。これは、画面下部に表示されているページ数を本文と誤認識したためのようだ。そもそも、1行に複数のルビが振られていると、くっついてしまい均等割り付けになってしまう。ルビが多いテキストの場合は読みにくくなってしまうだろう。

ルビの文字は認識されているが、割り当てがまちまち

 さらに、画面左上にはファイル名が表示されているのだが、こちらも文字化けしている。ページ数とファイル名は、全体にわたって認識できていなかった。また、すべての行の最後には改行が入っている。これは、OCRでは認識できないので仕方のないところ。

すべての行の下に改行が入っている

 原本では、ルビではなく注釈が小さい文字で付いていることがある。「帰って来た」はOCRで読み込んだ底本では「帰った来た」のような注釈の漢字は表示されず、ひらがな部分だけが表示されていた。認識ミスなのか、OCRのテキスト表示の仕様なのかは不明。そのほか、「――」(棒線)は数字の「1」に、漢数字の「二」は「一」と「一」に認識されるなど、惜しいミスが散見される。読点「。」が中黒「・」になっているところもあった。

 誤変換をあげつらったので、ミスが多いように感じるかもしれないが、実は本文のほとんどはきちんと認識しているので驚いた。基本的には問題なく読め、誤変換があっても文意が通らないところはほとんどない。「欅」が「樫」になっていたり、「俯いて」が「傭向いて」になっているところなどが数ヵ所あったくらいだ。

ところどころに変換ミスがある

思った以上にOCRソフトは使える!
ルビのない原稿なら誤認識は実質わずかに0.04%


 11稿OCR63]3416590110

 稿0.60.04OCROCR

筆者紹介─柳谷智宣

著者近影 柳谷智宣

1972年生まれ。ネットブックからワークステーションまで、日々ありとあらゆる新製品を扱っているITライター。日経パソコンオンラインで「ビジネスPCテストルーム」、週刊SPA!で「デジペディア」を連載するほか、パソコンやIT関連の特集や連載、単行本を多数手がける。近著に「ポケット百科 GALAXY SII LTE 知りたいことがズバッとわかる本」(翔泳社)「Twitter Perfect GuideBook」(ソーテック社)、「Dropbox WORKING」(翔泳社)、「仕事が3倍速くなるケータイ電話秒速スゴ技」(講談社)。


前へ 1 2 次へ

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン