iPod touch + skybookで通勤時等に読むことができるよう、手持ちのPDF形式の小説ファイルを、「青空文庫形式」のテキストに変換したいと思いつきました。
最近の一般ピーポー向けOCRの状況はどんなもんじゃい? ってことで。。。
[Adobe Acrobat 8.0でPaper Capture]
ん~、何の工夫もなく、文庫本を1000x1400pixel程度のjpg画像にscanしたPDFを喰わせてみたところ、認識率は、利用可能なレベルではありませんでした。ん~。
[いきなりPDF to Data]
上記と同じPDFファイル(400ページ程度)を喰わせてみたところ、インジケータが半分も進まないうちに、「メモリが不足しています。」と言われました。1GBじゃ足りんてか。
なるほど。思いつきでパッとできる作業では、まだまだ無いってことですか。。。(^^;;