scansnap S1500レビュー記事が出ていた

OCRエンジンがかなり良さそうだなあ。
買うかどーかナヤム

出版社/メーカー: 富士通
発売日: 2009/02/07
メディア: Personal Computers
購入: 104人クリック: 5,788回
この商品を含むブログ (240件) を見る

ScanSnap Organizerの中から、読み取ったPDFを検索可能なPDFに変換することも出来るようになった。写真109は、先に(2)のテストで読み取ったPDFファイル23個を一斉に変換しようとしているところだ。49ページのPDFファイル23個=1127ページ分の変換に必要な時間は、Core 2 Duo E6700で1時間21分ほど。平均すると、1ページの変換に必要な時間は4.3秒といったところだろうか。インタラクティブに変換してるとちょっと耐え難いが、バックグラウンドで勝手に変換してくれるので、直ぐに使うというのでなければ許容範囲だろう。
　もっとも、では検索が実用的か? となるわけでが、この23ファイルに対して“Segment”、“IA-32e”、”Descriptor”などの単語で検索を掛けた場合、ヒットするのは
* 白黒、1,200dpi、圧縮率5
* 白黒、400dpi、圧縮率3
* グレースケール、600dpi、圧縮率1
* グレースケール、600dpi、圧縮率3
の4ファイルのみ。
(snip)
と、比較していただければ分かるとおり、完璧に読み取りが出来た。
　では日本語では? ということで、以前の筆者の記事をFirefox 3.1から印刷して、その結果を同条件で読み込ませたのがこちら(AX4B533-TUBE.pdf)である。比較してみると
* 「同社製品であるAX4B-533」→「同社製品であるAX担二型且」(リンクのアンダーラインのために誤認識)
* 「Tube Sound Technology」→「TubeSoundTECHNOLOGY」(スペースが削除される)
といったささいなミスはあるものの、ほとんど全文が正しく認識されている。なんというか、やっとOCRが実用レベルに入った感があり、非常に喜ばしい限りだ。