[identity profile] weirdo85.livejournal.com posting in [community profile] useful_faq
У меня есть DOC'овский файл...в нем находятся отсканированные рисунки с текстом...хотелось бы их распознать Finereader'ом...хотелось бы получить нормальный DOC'воский документ для последующего редактирования...
finereader распознает или с рисунка или с pdf...какие варианты?
перегнать в jpg каждый рисунок-долго...да и качество потеряется...

Date: 2009-02-07 08:44 am (UTC)
From: [identity profile] kiisinkummitus.livejournal.com
У нас в Word-файле текст+иллюстрации по месту(а), или просто изображения, включающие в себя и текст и иллюстрации(б)?

Мы понимаем, что такое формат PDF? http://www.adobe.com/devnet/pdf/pdf_reference.html

Мы понимаем, что при преобразовании DOC->PDF происходит? Т.е. получается растровое изображение, которое помещается в виде объекта в скрипт PDF.

Для варианта (а) стоит извлечь иллюстрации, преобразование DOC->PDF, PDF->TXT. На основе текста и выгруженных иллюстраций собираем результирующий документ

Для варианта (б) выгружаем из DOC все изображения, конвертируем в JPG и распознаем, потом вырезая иллюстрации из изображений собираем результирующий документ

Принтеры DOC->PDF opensource есть в изобилии - погуглюйте.