scansnap S1500レビュー記事が出ていた

OCRエンジンがかなり良さそうだなあ。
買うかどーかナヤム

FUJITSU ScanSnap S1500 FI-S1500

FUJITSU ScanSnap S1500 FI-S1500

ScanSnap Organizerの中から、読み取ったPDFを検索可能なPDFに変換することも出来るようになった。写真109は、先に(2)のテストで読み取ったPDFファイル23個を一斉に変換しようとしているところだ。49ページのPDFファイル23個=1127ページ分の変換に必要な時間は、Core 2 Duo E6700で1時間21分ほど。平均すると、1ページの変換に必要な時間は4.3秒といったところだろうか。インタラクティブに変換してるとちょっと耐え難いが、バックグラウンドで勝手に変換してくれるので、直ぐに使うというのでなければ許容範囲だろう。

 もっとも、では検索が実用的か? となるわけでが、この23ファイルに対して“Segment”、“IA-32e”、”Descriptor”などの単語で検索を掛けた場合、ヒットするのは

* 白黒、1,200dpi、圧縮率5
* 白黒、400dpi、圧縮率3
* グレースケール、600dpi、圧縮率1
* グレースケール、600dpi、圧縮率3

の4ファイルのみ。

(snip)

と、比較していただければ分かるとおり、完璧に読み取りが出来た。

 では日本語では? ということで、以前の筆者の記事をFirefox 3.1から印刷して、その結果を同条件で読み込ませたのがこちら(AX4B533-TUBE.pdf)である。比較してみると

* 「同社製品であるAX4B-533」→「同社製品であるAX担二型且」(リンクのアンダーラインのために誤認識)
* 「Tube Sound Technology」→「TubeSoundTECHNOLOGY」(スペースが削除される)

といったささいなミスはあるものの、ほとんど全文が正しく認識されている。なんというか、やっとOCRが実用レベルに入った感があり、非常に喜ばしい限りだ。