このページの本文へ

前へ 1 2 次へ

夏休み終了直前! デジタル機器自由研究 第6回

OCRの精度に挑む! 日本語認識率を漱石の三四郎でチェックした

2012年08月28日 12時00分更新

文● 柳谷智宣

  • この記事をはてなブックマークに追加
  • 本文印刷

 デジタルガジェットには未検証の事象が多く存在している。それは予算の問題だったり、労力の問題で検証を回避されていることが多い。今回はASCII.jp夏休み企画として、そんなデジタルガジェットの謎をいくつか取り上げて紹介しよう。

OCRのテキスト認識率はどのくらい?

紙に打ち出すとA4用紙で160ページ以上の小説が、デジタルデータだと400KBもない。今更ながら時代を感じる


 OCR

 OCROptical Character RecognitionOCR

 OCR使OCROCR使

 e.Typist v.14.020124OCRPDFPDFEPUB

「e.Typist v.14.0」(メディアドライブ)。価格はダウンロード版が1万2800円となる。5日間使える無料体験版も用意されている

「三四郎」を1冊丸ごと認識させてたが
全ページ認識でも3分10秒しかかからかった


 使XHTMLPDFPDFOCR

 e.Typist便A41603310Phenom II X6 1090T Black Edition3.2GHzCPU16GB

「三四郎」のデータをPDFに変換する

「e.Typist」を起動し、ファイルを読み込む

「自動レイアウト解析を行います」をクリックしたあと、「文字認識を実行します」をクリック

テキスト変換が完了し、2つのウィンドウが並んで表示される。どちらかのウィンドウを操作すると連動してもう一方の表示も変化する

前へ 1 2 次へ

カテゴリートップへ

この連載の記事

注目ニュース

ASCII倶楽部

プレミアムPC試用レポート

ピックアップ

ASCII.jp RSS2.0 配信中

ASCII.jpメール デジタルMac/iPodマガジン