本文の誤認識率は0.6%
ルビの認識には難ありか
ルビは認識されているのだが、表示部分がまちまち。例えば「三四郎」には「さんしろう」ときちんと付いているが、「頓狂」の「とんきょう」は文節まるごとにかかって表示されている。さらに、本文4行目は途中で改行になっているのだが、なぜか均等表示になっている。これは、画面下部に表示されているページ数を本文と誤認識したためのようだ。そもそも、1行に複数のルビが振られていると、くっついてしまい均等割り付けになってしまう。ルビが多いテキストの場合は読みにくくなってしまうだろう。
さらに、画面左上にはファイル名が表示されているのだが、こちらも文字化けしている。ページ数とファイル名は、全体にわたって認識できていなかった。また、すべての行の最後には改行が入っている。これは、OCRでは認識できないので仕方のないところ。
原本では、ルビではなく注釈が小さい文字で付いていることがある。「帰って来た」はOCRで読み込んだ底本では「帰った来た」のような注釈の漢字は表示されず、ひらがな部分だけが表示されていた。認識ミスなのか、OCRのテキスト表示の仕様なのかは不明。そのほか、「――」(棒線)は数字の「1」に、漢数字の「二」は「一」と「一」に認識されるなど、惜しいミスが散見される。読点「。」が中黒「・」になっているところもあった。
誤変換をあげつらったので、ミスが多いように感じるかもしれないが、実は本文のほとんどはきちんと認識しているので驚いた。基本的には問題なく読め、誤変換があっても文意が通らないところはほとんどない。「欅」が「樫」になっていたり、「俯いて」が「傭向いて」になっているところなどが数ヵ所あったくらいだ。
思った以上にOCRソフトは使える!
ルビのない原稿なら誤認識は実質わずかに0.04%
筆者紹介─柳谷智宣
1972年生まれ。ネットブックからワークステーションまで、日々ありとあらゆる新製品を扱っているITライター。日経パソコンオンラインで「ビジネスPCテストルーム」、週刊SPA!で「デジペディア」を連載するほか、パソコンやIT関連の特集や連載、単行本を多数手がける。近著に「ポケット百科 GALAXY SII LTE 知りたいことがズバッとわかる本」(翔泳社)「Twitter Perfect GuideBook」(ソーテック社)、「Dropbox WORKING」(翔泳社)、「仕事が3倍速くなるケータイ電話秒速スゴ技」(講談社)。
この連載の記事
-
第5回
トピックス
USBの限界に挑む! 規格上の接続数127台は可能か? -
第4回
トピックス
どこかで見たようなゲーム機で汗だくスポゲーに挑戦 -
第3回
トピックス
一眼レフのシャッターをスマホのアプリで切る 何の意味が!? -
第2回
トピックス
2アカプレイに必要! サブノートに使えるPCクーラーを研究 -
第1回
トピックス
指紋リーダーの限界に挑む! 本当に他人の指では通らない? - この連載の一覧へ