【フラベ】本の取り込みに最適なスキャナ6【ADF】

**名無しさん＠お腹いっぱい。** · 2017/07/11(火) 00:51:01.54

>>775
linux+tesseract-ocr3.04で小説の文庫本をテキスト化している者の一人だが、
残念ながら素のtesseract-ocrの認識精度は条件次第で『悪くない』レベルまで
できるけど『良い』レベルとは到底言えない。

テキストだけならocrで絞って得られたテキストをsedによる校正フィルターに
かけることで、かなり日本語に近づけられるけどそれじゃイヤなんだよね？
（禁則処理の違いからwine+Windows用のテキストエディタが必要）

せめて認識結果のテキストを一旦切り離して校正してから再度PDFとマージ
できればともかく、スキャン一発勝負だと厳しいだろうな。