scansnap S1500レビュー記事が出ていた
OCRエンジンがかなり良さそうだなあ。
買うかどーかナヤム
FUJITSU ScanSnap S1500 FI-S1500
- 出版社/メーカー: 富士通
- 発売日: 2009/02/07
- メディア: Personal Computers
- 購入: 104人 クリック: 5,788回
- この商品を含むブログ (240件) を見る
ScanSnap Organizerの中から、読み取ったPDFを検索可能なPDFに変換することも出来るようになった。写真109は、先に(2)のテストで読み取ったPDFファイル23個を一斉に変換しようとしているところだ。49ページのPDFファイル23個=1127ページ分の変換に必要な時間は、Core 2 Duo E6700で1時間21分ほど。平均すると、1ページの変換に必要な時間は4.3秒といったところだろうか。インタラクティブに変換してるとちょっと耐え難いが、バックグラウンドで勝手に変換してくれるので、直ぐに使うというのでなければ許容範囲だろう。
もっとも、では検索が実用的か? となるわけでが、この23ファイルに対して“Segment”、“IA-32e”、”Descriptor”などの単語で検索を掛けた場合、ヒットするのは
* 白黒、1,200dpi、圧縮率5
* 白黒、400dpi、圧縮率3
* グレースケール、600dpi、圧縮率1
* グレースケール、600dpi、圧縮率3の4ファイルのみ。
(snip)
と、比較していただければ分かるとおり、完璧に読み取りが出来た。
では日本語では? ということで、以前の筆者の記事をFirefox 3.1から印刷して、その結果を同条件で読み込ませたのがこちら(AX4B533-TUBE.pdf)である。比較してみると
* 「同社製品であるAX4B-533」→「同社製品であるAX担二型且」(リンクのアンダーラインのために誤認識)
* 「Tube Sound Technology」→「TubeSoundTECHNOLOGY」(スペースが削除される)といったささいなミスはあるものの、ほとんど全文が正しく認識されている。なんというか、やっとOCRが実用レベルに入った感があり、非常に喜ばしい限りだ。