14
底本とコンピュータさえあれば、青空文庫の作業は始められる。だけど、他にいろいろと機材があるとかなり便利。ということで、入力、校正に活躍するOCR関連の機材を紹介します。
使っているコンピュータは、マックのOS X (ver 10.5)で、ファイルの処理は通常JEdit X(2.15)で行っている。
スキャンは、スキャナーがCanom CanoScan LiDE 90で、OCRはe.Typist v.8.0を使っている。スキャンそのものも、e.Typist v.8.0のスキャン機能を使ってスキャンしている。
前にも書いたけれど︵ヒラ工作員の日常〜入力編〜:http://www.aozora.jp/blog_old/2004/05/06/post.html︶、スキャナーとOCRは基本的に入力に使っている。最近、校正にも使えるのではないか、といろいろと試みている。やり方は以下の通り。
1︶底本をスキャンし、OCRでテキストファイルを作成する。
2︶OCR出力のファイルを手直しする。この時、しっかりと読むようなことはしないでもいいようだ。
3︶校正するファイルとOCR出力のファイルを相違点チェッカーで比較する。
この方法は、手入力で入力されたファイルの校正にはかなり威力を発揮する。手入力の際には、どうしてもてにをはの間違いや、漢字の開きのミスがまぎれてしまう。そして、そういった間違いは眼で比較しているだけではなかなか全てを拾いきれない。もっとも、底本がOCR向きのものでないとOCR出力のファイルが間違いだらけであまり使えないかもしれないが。
また、OCRで入力されたファイルの際にも、スキャンの状態、OCRソフトの違いで出力に違いがあるようなので、ミスを見つけるのに役に立つかもしれない。
相違点チェッカー‥結城さんの作られたツール
http://www.hyuki.com/aozora/
現在、OCRソフトの見直しをしています。
PCを新しくした(前のが壊れた)関係で作業環境が変ってしまいました。
以前はWindowsで読んでココ!を使用していましたが、最新事情はどうなのでしょう?
皆様のアドバイスをお待ちしています。
[…] aozorablog » 青空文庫の作業に使っている機材: aozorablog » 青空文庫の作業に使っている機材 […]