X



ScanSnapシリーズ総合スレ Part39 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
0001名無しさん@お腹いっぱい。
垢版 |
2016/10/09(日) 20:14:51.95ID:7wdHg9E7
■公式
富士通 http://scansnap.fujitsu.com/jp/
PFU . http://www.pfu.fujitsu.com/imaging/index.html
現行製品 http://scansnap.fujitsu.com/jp/product/
過去機種 http://scansnap.fujitsu.com/jp/archive/

■ニュース・レビュー・参考リンクなど
ITmedia > ScanSnap
http://www.itmedia.co.jp/keywords/scansnap.html
マイコミジャーナル > ScanSnap
http://journal.mycom.co.jp/tag/0001909/
日経トレンディネット > ScanSnap
http://trendy.nikkeibp.co.jp/bns/bnsearch.jsp?BID=2632&;amp;OFFSET=0&SEARCH_TEXT=ScanSnap
PC Watch > 槻ノ木隆のPC実験室
http://pc.watch.impress.co.jp/docs/article/backno/pclabo.htm
PFUのScanSnap徹底レビュー&活用レポート
http://ascii.jp/ad/scansnap/

自炊技術 Wiki
http://wikiwiki.jp/bookjisui/

■前スレ
ScanSnapシリーズ総合スレ Part38 [転載禁止]
http://tamae.2ch.net/test/read.cgi/printer/1448688789/
0721名無しさん@お腹いっぱい。
垢版 |
2017/10/11(水) 01:19:42.17ID:upqd5kMc
>>720
他のスキャナーで同様の症状が出ていたことがります。
その時は、なにかの拍子に偶然なおった、のです。
これでは、まったく助言になりませんねw。

本来なら、左右サイドガイドが一緒に外側に広がったり内側に狭くなったり
して連動するのですが、片方だけが動いて、もう片方が動かない、
ということは、その左右のサイドガイドどうしの連動部が壊れている
(外れている)可能性が高いです。

「するする」と動く左側ガイドは中心を超えて右側には移動しないでしょう?
それで右側ガイドはびくともしない、と。
メーカーに送って修理してもらうのが確実です。
自分でばらすのは難しいかもしれません。自己責任ということで。
左右のガイドの連結部がカチンと、もとのようにはまれば動くようになる、
ということらしいのですが、よくわかりません。
「自然治癒」に期待はできませんね。

すんません。
0722名無しさん@お腹いっぱい。
垢版 |
2017/10/14(土) 18:59:34.47ID:7N8aFB5v
>>706
会社のスキャナーのデフォルトが200dpiになっていたのですが、
200 と 300 の違いはわからなかった。現行はA3とB4です。

大量にあるので、貼り合わせるということは考えませんでした。
切断した部分が読めなくなるしね。
0723名無しさん@お腹いっぱい。
垢版 |
2017/10/14(土) 19:00:22.38ID:7N8aFB5v
>>705
1500で2万冊スキャンしても大丈夫だったよ。ただ、裁断機の刃が
だめになった。
0724名無しさん@お腹いっぱい。
垢版 |
2017/10/14(土) 19:07:27.92ID:2ZSd7emb
社用複合機のデフォルトだと200dpiかつモノクロ2値設定だったりするからな
しかも数十秒でカスタム値リセットされてデフォルトに戻ってしまう設定になってたり
0727名無しさん@お腹いっぱい。
垢版 |
2017/10/15(日) 14:30:33.95ID:w41FEfBZ
>>724
あるわー。

俺が昔いた会社では、プリント枚数は社内に公表されていたから注意な。

もしかしたらスキャン枚数もカウントできるような仕組みがあるのかもしれないし。
0729名無しさん@お腹いっぱい。
垢版 |
2017/10/17(火) 00:53:47.98ID:IiNiAZDv
会社スキャン早くて捗るわー。
諦めていたA3書類もどんどん持っていってスキャンしよう。
なんでもっと早く気が付かなかったんだろう。
0730名無しさん@お腹いっぱい。
垢版 |
2017/10/17(火) 03:15:43.72ID:KtmWRC3I
>>729
うちのような大会社は見つかったら首になりかねない。
あなたのような中小規模の会社がうらやましい。
0733名無しさん@お腹いっぱい。
垢版 |
2017/10/17(火) 08:34:25.30ID:UpIcCgBr
10枚くらいなら、問題ないが、日常的にやってたら相当ヤバいな。
大企業でも地方の支社とかなら、また違ってくるけど。
0735名無しさん@お腹いっぱい。
垢版 |
2017/10/17(火) 11:15:31.29ID:GQhlgfro
うちの会社はUSBポートも個人アドレスへのメールも全部チェックされてるから無理だなぁ
いまどきどこもそんなもんだと思うけど
そもそも会社でそんなことやってると周りの目が・・・
0736名無しさん@お腹いっぱい。
垢版 |
2017/10/17(火) 21:52:55.03ID:+iMMjPcf
>>735
何系の会社ですか?
金融?
IT?
0737名無しさん@お腹いっぱい。
垢版 |
2017/10/17(火) 23:09:01.62ID:KtmWRC3I
>>736
金融の会社に配属されたITの会社。
0738名無しさん@お腹いっぱい。
垢版 |
2017/10/17(火) 23:42:46.71ID:IvZfUFp/
いいかげんなスレ違いの話にえんえんと・・・w

職場で(職を持ってるなら)おなじことをやると大きな不利益を
被る可能性が高いので注意
大学じゃあるまいし、会社は怖いよ
0740名無しさん@お腹いっぱい。
垢版 |
2017/10/19(木) 10:50:24.03ID:cnr90ohf
大学はコピーするにも金がかかったぞ。
0741名無しさん@お腹いっぱい。
垢版 |
2017/10/19(木) 10:51:10.14ID:cnr90ohf
もし会社にスタンドアロンなスキャナーがあれば
バレる心配はなくない/
0742名無しさん@お腹いっぱい。
垢版 |
2017/10/20(金) 20:32:43.54ID:Ze5SScl0
会社にスキャナって俺の私物のS1500以外は、複合機しかないわ。
透明テキストPDF作れる複合機ってあるの?
0743名無しさん@お腹いっぱい。
垢版 |
2017/10/20(金) 21:56:09.82ID:NkYnEDDJ
>>742
透明テキストPDFってなんのことか分からずググっちゃったわ
ただのOCRじゃん
それってソフトでやることで複合機関係ないんじゃね?
フリーソフトも大量に出回ってるし読み取り革命なんかも安いし付属ソフトも優秀だしAndroidのスマホアプリもかなり精度高くなってるね
わざわざ機種に依存することもないだろ
0744名無しさん@お腹いっぱい。
垢版 |
2017/10/20(金) 23:50:50.99ID:XRdWd7ar
後からPDFにOCRつけるのは結構手間じゃろ
画像からテキスト抽出できるフリーソフトは結構増えてるけど
透明テキストPDFとして出力できるものはなかなか見当たらないし
市販のOCRソフトはなぜだかPDF内の画像jpgを再圧縮劣化させるものが多い
精度と手間と時間考えたら泥スマホアプリは現実的じゃないし
まあScanSnapユーザーならバンドルのAcrobatやAbbyなんとかがあるだろうけど

>>742
軽くググッた感じリコーゼロックスキャノンあたりはあるっぽい
メーカーによってはサーチャブルPDFとか言うらしい
0745名無しさん@お腹いっぱい。
垢版 |
2017/10/21(土) 00:21:23.28ID:tmq6mRQa
>>742
googleで
検索可能 PDF 複合機
で検索してみてください。
PCではなくスマホで検索する場合は、
ブラウザアプリで検索します。
その検索結果を1年以内のものと設定すると、
テキスト検索可能なPDFを作成できる複合機の情報が
でてきます。
ただ、それを作成している「過程」(途中)で文書の
任意の部分の文字への変換がうまくいっているかを確認して
修正できる複合機は少ないのでは?
そのような機能は、別売りの(単独の)文字認識ソフト
(OCRソフト)のほうが優れているでしょう。
0747名無しさん@お腹いっぱい。
垢版 |
2017/10/21(土) 04:41:12.47ID:dgSAd/Wu
>>744
再圧縮劣化?
よく知らんけどOCRってもう一枚文字データを被せるだけだろ?
っていうかどのPDF編集ソフトでも圧縮率設定あるしOCRは付録で付いてるし後は精度の問題だろ?
機種に付録のソフトが優秀とも思えないけどw

そして認識率は読み取り革命とeなんとかがトップで横文字ならAcrobatであとはそれなりのソフトがごまんとあるってのも定説じゃね?
何年も変わってない
ただその他大勢が最近結構の精度やスピードがあって舐めてかかれない
逆に読み取り革命なんかは500ページもあるようなのだと小一時間かかる

どっちにしても点検は自分の目で確認しないといけない、100%は無いから

Androidのフリーアプリもなかなか凄いよ、一年前と比べてここまで来たかって感じ
あわせて音声アプリも使ってそこらの文字を写真で撮って発音させて遊んでるわ
0748名無しさん@お腹いっぱい。
垢版 |
2017/10/21(土) 04:49:15.89ID:dgSAd/Wu
ちなみに読み取り革命に付録で付いてるキャプチャーなんとかのソフトは結構便利だわw
モニタ上の写真やWeb上でコピペ出来ない画像扱いのページでもターゲットマークみたいなのをマウスで操作して一瞬で読み取る
Windowsのタスクバーに常に入れてるわ
本体より役に立つ
読み取り革命には他にももろもろソフト入ってるね、フォルダに大量に突っ込んで勝手にOCR化やらせとくソフトとか
0750名無しさん@お腹いっぱい。
垢版 |
2017/10/21(土) 08:44:56.02ID:oT+Gwzee
なんかズレてんなあ
スキャンと同時に透明テキストPDFにする前提の代替なのだから
精度は手動確認いっさいなしで全文検索で使えればいい程度
問題は後からOCRかける手間と時間だろう
バッチ処理で放置できるなら多少は楽になるがそのためだけに一万いくらする読み取り革命買いたくないから
スキャナドライバでスキャン時に透明テキスト付けらんないか聞いてるじゃないの

何年か前に各社OCR試用版を試したときはeTypistが一番精度がよかった
でも画像は強制再圧縮でオリジナル画質ママにする設定がなかった
ほんと透明テキスト被せてくれるだけでいいのに
0751名無しさん@お腹いっぱい。
垢版 |
2017/10/21(土) 13:16:53.25ID:3Fl0MlX+
ウ〜ン、言ってる意味が分からん
OCR載せる時間は機種ごとのソフトもスキャン後のソフトも同じだろ?
つーか10万前後のミドルスペPCあるならスキャン後載せた方が早くね?
手間だってたいてい編集ソフトのどこかのボタン1クリックだろうし

同時の機種はその分スキャン遅れてんだろうし
あるいは手抜きOCRか
 
もしかしてPC自体持ってないとか?
PC無しでどうやってスキャンしてんのよ

まあそれはそれとして確かscansnapはスキャン時のOCR化ボタンあったと思う
0752名無しさん@お腹いっぱい。
垢版 |
2017/10/21(土) 13:21:41.86ID:3Fl0MlX+
あと読み取り革命は一万もしないだろ
昔の安物プリンタとか持ってない?
どこかのハードに読み取り革命LITE入ってればバージョンアップ完全版も安く買える
確かセール時で2,3千円だったか
0753名無しさん@お腹いっぱい。
垢版 |
2017/10/21(土) 13:39:40.22ID:8oCoDszB
Andoroidとか言ってる時点で作業量の基準が違う悪寒
自炊前提だと何十冊何百冊単位で同じ作業を繰り返すことになるからの

S1500の頃は他メーカーに比べOCR載せる時間もCPU使用率もべらぼうに食うって評判だったな
今はわからんが
0754名無しさん@お腹いっぱい。
垢版 |
2017/10/21(土) 13:50:06.55ID:u5cHNfG0
>>750
精度気にしないならフリーのPDF編集ソフトが一番じゃん
手間も時間もかからない
それからオリジナル高画質のOCR付きデータなんてメチャクチャ容量食うよ
そのクソ重データの閲覧はPC専用?
0755名無しさん@お腹いっぱい。
垢版 |
2017/10/21(土) 14:01:00.35ID:u5cHNfG0
今microSDカードに入ってる高画質の本の容量調べたら一冊240MBだったw
文字検索もソフト選ばないと激遅になるわ
PCなら平気だけど
0758名無しさん@お腹いっぱい。
垢版 |
2017/10/22(日) 01:03:44.35ID:OHn+muza
端末やクラウドとの通信はhttpsオンリーなのだろうか
最悪覗き見られても暗号化されてれば大丈夫だとは思うが
0764名無しさん@お腹いっぱい。
垢版 |
2017/10/29(日) 16:31:09.62ID:xn0TSk8U
ホッチキスとかクリップで留めたのが
ウギャって音が鳴って初めて気づくから
緊急停止ボタンあっても間に合わないわw
0765名無しさん@お腹いっぱい。
垢版 |
2017/10/30(月) 16:26:26.03ID:86Axvp1q
Scansnap S1500付属のAcrobat X StandardでOCRをやり直した後に
透明な文字データを表示・確認・修正・追加・編集する方法がイマイチよく分かりません

●OCRをやり直す方法
[ツール]-[テキスト認識]-[このファイル内]-[テキスト認識]-[OCRの言語:日本語 PDF出力形式:検索可能な画像(非圧縮) ダウンサンプル:ダウンサンプルしない]

●OCRした文字データを編集する方法?
[ツール]-[テキスト認識]-[OCR 不明テキスト]-[すべての不明テキストを検索]-[最初の不明テキストを検索]で
赤枠で囲われたハイライト表示をクリックして新しいテキスト入力しようとしても、文字が入力されているのか居ないのかさっぱりわかりません

Acrobat X Standardで透明な文字データの表示・確認・修正・追加・編集する方法をご指南いただけないでしょうか
0768名無しさん@お腹いっぱい。
垢版 |
2017/10/30(月) 19:05:00.56ID:86Axvp1q
>>767
そういった作業+画像を誤って文字として認識している箇所の削除であったり、文字として認識しなかった箇所に透明の文字データを足すといった作業ができると嬉しいです
0770名無しさん@お腹いっぱい。
垢版 |
2017/10/31(火) 23:25:54.67ID:gneiKzGN
>>766
ix500の動作を見ていると、かなりの力で紙送り
ローラーが回っているので、緊急停止は難しい
のでは?クラッチを切って慣性で回転する
ローラーを止める仕組みでしょうか?
自動車のようにエンジンブレーキが効きませんからね。
構造が複雑で部品寿命などが短くなるような
気がします。
0774名無しさん@お腹いっぱい。
垢版 |
2017/11/02(木) 00:28:59.84ID:iRoKmmyS
>>773
ローラーとモーターの間にギアなんかがあるだろう
モーター止まっても,そのほかが慣性で動いているんじゃないか?
0775名無しさん@お腹いっぱい。
垢版 |
2017/11/02(木) 00:56:23.78ID:Z8pqXYy4
諸々の抵抗で一瞬で止まるんじゃないかな
フタ開けたり重送検知したりした時はピタッと止まってるし
0776名無しさん@お腹いっぱい。
垢版 |
2017/11/02(木) 07:03:08.99ID:9heva0s4
>>774
ないない
ステッピングモータの加速と減速のトルクは原理的に完全に同じで、
紙送りが一瞬で始まる設計なら止まるのも一瞬
インクジェットプリンターの紙送りにも使われているけど、紙が出てくる様子を見たことない?
0777名無しさん@お腹いっぱい。
垢版 |
2017/11/03(金) 16:26:37.74ID:2pLbaqXE
ローラーとパッドの交換時期なんだが
新型まだかね?
ローラーパッドで7K出すなら新型に変えたいんだが。
0778名無しさん@お腹いっぱい。
垢版 |
2017/11/03(金) 17:36:29.03ID:g2iTWF2p
https://youtu.be/TgN576cbv2Y
こんな感じです。

回す手が写って無くてスミマセン。
0779名無しさん@お腹いっぱい。
垢版 |
2017/11/03(金) 17:36:37.09ID:g2iTWF2p
>>778
誤爆です
0780名無しさん@お腹いっぱい。
垢版 |
2017/11/03(金) 21:26:58.09ID:2nt7P5fG
まえに書き込んでいた人がいましたが、
トラブルで読み取りが停止した時にでてくる
「ここまで読み取りました」というページの画像が
あまりにも小さく劣悪なので、これをもうすこし
解像度のあるものにしてほしいですね。
ページ番号さえも読めないことが多い。
「画像」としての特徴のない文字だけのページ
だと同定が難しい。
緊急停止ボタンより有用な改善だと思います。

読み取りが停止した段階で、一度保存し、
それを開いて最後のページとその前のページを
確認して、そのPDFファイルの名前の末尾に
「1」と番号をつけて、つづきから別のファイルとして
スキャンしています。あとでPDF編集ソフトで結合
します。ページの欠落が怖いので。
0781名無しさん@お腹いっぱい。
垢版 |
2017/11/03(金) 21:35:38.62ID:ura2UGwi
>>「ここまで読み取りました」というページの画像が
そーとーレアなケースだと思うけど
500冊に1件も見ていない

>>あまりにも小さく劣悪なので、これをもうすこし
拡大できなかったっけ?以前は出来てたと思うけど
あと、保存されたのを別ビュアーで確認でも行けると思うが

ああ、PDFの人特有の話なのかな?
JpgからPDFへあとから変換じゃダメなの
というか、PDFってビューアーあんまし良くないじゃん
0782名無しさん@お腹いっぱい。
垢版 |
2017/11/03(金) 22:36:25.11ID:OdrxkXTy
>>780
あれ見づらいよね。
ジャムで停止した時は片面しか見せてくれなかったりして
その面が白紙だと情報ほぼゼロってことも。

>>781
>500冊に1件も見ていない
マジか…
重送とかジャムとかで停止して「ここまで読んだ」になるケース、
うちのS1500だと5回に1回ぐらいはある気がする。
状態の悪い原稿だと数ページごとになってしまって
「もうこれ一枚ずつ手差ししたほうがいいんじゃ?」と思うことも。

>というか、PDFってビューアーあんまし良くないじゃん
Macだと純正のプレビュー.appで結構快適に見えるんで
最初からまとまってくれるPDFが便利なのです。
0783名無しさん@お腹いっぱい。
垢版 |
2017/11/03(金) 23:06:53.57ID:JicEF3yh
>>780
そうそう
あと、スキャン後のファイル名を入力するときに、最初のページを大きく表示してほしい
最初のページには会議の名前や日付というファイル名に入力する情報が書いてあるから
0784名無しさん@お腹いっぱい。
垢版 |
2017/11/04(土) 05:51:36.20ID:6ZJP81h+
>500冊に1件も見ていない

「ここまで読み取りました」ってエラーメッセージは確かに見てないけど
最後に読み取ったプレビューというかサムネイルの画像のことだと思うよ
0785名無しさん@お腹いっぱい。
垢版 |
2017/11/04(土) 14:46:39.00ID:t02JITZx
仮に長い巻物みたいな紙があったとする。
ScanSnapにそれを読み取らせると
永遠と読み続けるだろうか?

もちろんそんなことはしない。
途中で打ち切る。

それが「ここまで読み取りました」

つまりA4用紙が1枚ずつ吸い込まれず
1枚の途中で2枚目を吸い込むなど
1枚を超える長さを読み取った時に出るエラーなのさ
0786名無しさん@お腹いっぱい。
垢版 |
2017/11/04(土) 14:51:46.52ID:6ZJP81h+
すげぇ。長い紙があったらやってみる。
むかーしエプソンで長いロール紙対応のプリンタがあったなぁ。大型SCに消される前に商店街のパノラマ写真を作った。
0787名無しさん@お腹いっぱい。
垢版 |
2017/11/04(土) 15:06:00.99ID:Fm/AIDqq
>>783
これ、分かるわ
0790名無しさん@お腹いっぱい。
垢版 |
2017/11/04(土) 20:18:51.83ID:6ZJP81h+
長尺読取863mmまでだそうです。長いような短いような。
表と裏で繋げばメビウスの宇宙を越えるかもしれないと思ったんだけどなぁ。
0791名無しさん@お腹いっぱい。
垢版 |
2017/11/04(土) 20:19:46.13ID:kNKbvLFj
>>780
です。
混乱させて申し訳ありません。
「」で囲った文章は画面にはでてきません。
でません。
そのような「意味」の画面になる、という意味でした。
みなさん同じようなところで悩んでますね。

私は、あまりあの表示画面に期待してません。
トラブルが起きた時点で、そのスキャンは中断して、
出来た分だけ保存して続きを別のファイルで
スキャンします。
あとで結合。スキャンはWindows、加工はMacです。
====たとえば============
2017年11月04日22時45分14秒.pdf
という途中までのファイルが保存されたら、
2017年11月04日22時45分14秒1.pdf
と名前を変更します。
この次の年月日時分秒のファイルは、その”秒1”で
終わっているファイルの続きだと理解します。
再度トラブルが起きたら(ほとんどない)、
2017年11月04日22時46分27秒2.pdf
と次のファイル名を変更する。
こうして、
2017年11月04日22時45分14秒1.pdf
2017年11月04日22時46分27秒2.pdf
2017年11月04日22時48分02秒.pdf
の3つのファイルが1つの書籍(など)を
構成する、という意味になります。
0792名無しさん@お腹いっぱい。
垢版 |
2017/11/05(日) 09:23:51.50ID:DCo30J0n
アプリ画像は最初から当てにしてないんだよなぁ。アプリ自体の信頼性もイマイチ。
そもそも目の前にスキャン原稿とスキャン済み画像があるわけでそれを信じるしかない。

JPG保存(スーパーファイン)にしてファイル名は連番3桁のみ、サムネアイコンを最大にしる
保存先を「名称未設定フォルダ」にしてスキャン後に[出版社・著者] タイトル 第xx巻(年)(価格).zip

PDFにするくらいだったら本のままの方がマシ
0794名無しさん@お腹いっぱい。
垢版 |
2017/11/05(日) 10:12:54.25ID:DCo30J0n
人類にPDFはまだ早すぎるんだよ

印刷ファイルの保存だけならいいんだけど、読みたい場合にはいちいちファイル全部を読み込んでから
その後に演算しながらの表示になるし、他の形式へ変換は手間と速度と品質で現実的ではないし、
読み取りノイズの編集もそう簡単ではない。セキュリティ問題でバージョンアップも頻繁。
イラレで作ったデータを後年に残すためにしか使ってない。
0795名無しさん@お腹いっぱい。
垢版 |
2017/11/05(日) 22:10:44.72ID:yAhycYIp
ビジネス用だとPDF保存が良い
OCRで文字データを付けておけば、議事の名前の一部や担当者で検索できる
利用の分野の違いで保存形式も変わるのだろうな

>>783の話は、スキャナのそばに古紙回収箱があるから、画面で1ページが読めれば、PCの前まで持ち帰らなくて済むということなんだ
0801名無しさん@お腹いっぱい。
垢版 |
2017/11/07(火) 12:57:24.22ID:8rl+VCD8
実際使った人が書かないと意味無いよ

OCRは誤字脱字がヒドくて使い物にならんのよ
それを前提にしてくれ
0802名無しさん@お腹いっぱい。
垢版 |
2017/11/07(火) 13:08:22.13ID:hoy/h/so
前提は紙の文書をスキャンするというところでしょ
元文書データが手元にあったり人力テキストおこしに時間を割くという前提ではない

OCRは全文検索用に無いよりはあったほうがいいという代物
紙のままでは検索自体できないのだから
0803名無しさん@お腹いっぱい。
垢版 |
2017/11/07(火) 13:09:07.10ID:7rW4/EJP
>>801
OCRは検索用途だとそこそこ使えるんで重宝してるよ。
認識後のテキストだけ取り出して読めると期待してたらガッカリするかもだけど。
0804名無しさん@お腹いっぱい。
垢版 |
2017/11/07(火) 13:22:45.06ID:8rl+VCD8
いや名刺のゴシック体検索にも使えないよ
電話番号やアルファベットなら十分だけど仕事で使うなんて怖すぎる
0806名無しさん@お腹いっぱい。
垢版 |
2017/11/07(火) 14:05:00.19ID:hoy/h/so
だからテキストとして活用するもんじゃなく検索用だと言ってるのに

ていうかゴシックの名刺とかやる前から駄目なの分かってる物はOCRかけんじゃろ
0807名無しさん@お腹いっぱい。
垢版 |
2017/11/07(火) 19:04:56.66ID:9w0aYF5T
>>804
名刺はOCRしてチェックして手で訂正する
さすがにそのままでは不安だし、実際間違いがある
CardMinderお使ってる
0808名無しさん@お腹いっぱい。
垢版 |
2017/11/07(火) 23:29:07.46ID:8qt/9UUe
>>806
スキャンを実際に「使っている」人の意見だ。
ノーマルな意見だと思う。
PDFを使う人にとってはね。

OCRしたPDFに「完全なテキストファイル」を求める
のはナイーブ(英語の本来の意味で)w
それでも、ゼロから入力するより、OCR結果を参考にするほうが
はるかにまし。
0809名無しさん@お腹いっぱい。
垢版 |
2017/11/08(水) 00:18:13.88ID:uy5plW47
公文書のOCRも結局係員が全部見直して訂正しまくってたり最初から使わなかったりだ
マークシートもほんのちょっとした汚れや鉛筆の粉で反応してしまうから、合格ライン付近は全部見直ししてる

青空文庫とかも全部手入力だもんね
OCRはまだまだ使い物にならない
0810名無しさん@お腹いっぱい。
垢版 |
2017/11/08(水) 01:29:15.22ID:fw+2ydgz
OCRで画像から電子ドキュメントにってのは結局時間がかかるだけに終わることが多い
句読点や記号、半角全角、Oと0とか詳細チェックを何度もやらないと完璧にならない
不自然な文字を的確に判断できるAIでもあればまた進化できるのかな?
現時点では全部打ち直した方が結果的にも速い

OCRはざっくりとテキスト化させるというくらいでちょうどいい
それをざっくりと使うという感じで
検索用にとかそんなレベルで使うのが実情だろうな
0812名無しさん@お腹いっぱい。
垢版 |
2017/11/08(水) 15:53:23.14ID:AmQ0xbIh
OCRからの手修正でしょ>青空文庫
ttp://www.aozora.gr.jp/aozora-manual/index-input.html

自炊本で文字系の本は全部OCRしてPDFだわ。自分で読むだけだから修正はしないけど(透明テキストなら修正する必要も感じない)
検索できるのは便利だし、ハイライト引いたりも出来るしね。ハイライトした部分に飛べるから便利。
OCR関係ないけどPDFは目次も付けられるし。

OCRに完璧求める人は、透明テキストPDFでなく、完全に文字に起こして青空形式なり、epub形式なりにしてんだろうか
0814名無しさん@お腹いっぱい。
垢版 |
2017/11/09(木) 16:02:00.55ID:xEDPmxLF
とりあえずJPGでとっとけば、後からOCRでテキスト化、PDFにもできるけど
「検索に使える精度と信頼性は無い」からテキスト化PDF化は無意味だよ。
0815名無しさん@お腹いっぱい。
垢版 |
2017/11/09(木) 16:07:36.53ID:2wKFGyGV
OCRの技術は、これからどんどん進歩するだろう。
しかし、大多数の利用者にその進歩の需要があるかどうか?
いまでもかなりの精度だから。
それでも、改善はなされていくだろう。
古文書の手書き文字さえ認識されるんだから。

500ページの書籍をスキャンして、それに検索可能な
テキストをかぶせてPDF化するというのが、すごく
便利。本文中を自由に検索できるからね。
検索していると、検索用語がどのページに集中して
いるか?いくつ使われているか?どのような組み合わせ
で使われているか;「どのようなOCR誤読がなされているか」
を知ることができる。これは重要。
しかも、オリジナルの付図や表、式などとの位置関係を
崩すこと無く検索が可能だ。

PDFの利便性は、利用者の「頭の良さ」の問題だ。
0816名無しさん@お腹いっぱい。
垢版 |
2017/11/09(木) 16:46:30.92ID:E4HVpmDI
OCRが検索に使える精度がないって元データが悪すぎるんでないの?
結構きちんと読み取るけどなあ
0817名無しさん@お腹いっぱい。
垢版 |
2017/11/09(木) 16:48:01.69ID:7dsDxMWj
とりあえずPDFでとっとけばあとからJPG抽出もできるとも言える
取りこぼしがあってもアタリがつけられればOKな使い方する人なら無意味ではないだろう
画像ビューアで全ページ総なめで目視確認していくよりは楽だからな
0820名無しさん@お腹いっぱい。
垢版 |
2017/11/09(木) 19:25:48.62ID:rZLKASDA
>>815
>OCRの技術は、これからどんどん進歩するだろう。

いやしねーだろ
そのセリフ何年前から言ってんだよ
もう長いこと1ミリも進歩してない
■ このスレッドは過去ログ倉庫に格納されています

ニューススポーツなんでも実況