0779名無しさん@お腹いっぱい。
2017/07/11(火) 00:51:01.54ID:aJ6J5ao2linux+tesseract-ocr3.04で小説の文庫本をテキスト化している者の一人だが、
残念ながら素のtesseract-ocrの認識精度は条件次第で『悪くない』レベルまで
できるけど『良い』レベルとは到底言えない。
テキストだけならocrで絞って得られたテキストをsedによる校正フィルターに
かけることで、かなり日本語に近づけられるけどそれじゃイヤなんだよね?
(禁則処理の違いからwine+Windows用のテキストエディタが必要)
せめて認識結果のテキストを一旦切り離して校正してから再度PDFとマージ
できればともかく、スキャン一発勝負だと厳しいだろうな。