iX500の「検索可能なPDFに変換」を使用してデータ化してみたが、
これだとまず100%の確率で
カタカナの"ト"は漢字の"卜"(ぼく)、
漢字の"日"(ひ)は"曰"(いわく)
に認識されるな。
これ以上の精度向上は、前後の文脈を判断する機能が付加されない限り
無理だと思う。