0825名無しさん@お腹いっぱい。垢版2017/11/09(木) 22:52:52.60ID:REMwE10q iX500の「検索可能なPDFに変換」を使用してデータ化してみたが、 これだとまず100%の確率で カタカナの"ト"は漢字の"卜"(ぼく)、 漢字の"日"(ひ)は"曰"(いわく) に認識されるな。 これ以上の精度向上は、前後の文脈を判断する機能が付加されない限り 無理だと思う。