>>775
linux+tesseract-ocr3.04で小説の文庫本をテキスト化している者の一人だが、
残念ながら素のtesseract-ocrの認識精度は条件次第で『悪くない』レベルまで
できるけど『良い』レベルとは到底言えない。

テキストだけならocrで絞って得られたテキストをsedによる校正フィルターに
かけることで、かなり日本語に近づけられるけどそれじゃイヤなんだよね?
(禁則処理の違いからwine+Windows用のテキストエディタが必要)

せめて認識結果のテキストを一旦切り離して校正してから再度PDFとマージ
できればともかく、スキャン一発勝負だと厳しいだろうな。