из формата DOC в формат PDF
Feb. 7th, 2009 11:02 am![[identity profile]](https://www.dreamwidth.org/img/silk/identity/openid.png)
![[community profile]](https://www.dreamwidth.org/img/silk/identity/community.png)
У меня есть DOC'овский файл...в нем находятся отсканированные рисунки с текстом...хотелось бы их распознать Finereader'ом...хотелось бы получить нормальный DOC'воский документ для последующего редактирования...
finereader распознает или с рисунка или с pdf...какие варианты?
перегнать в jpg каждый рисунок-долго...да и качество потеряется...
finereader распознает или с рисунка или с pdf...какие варианты?
перегнать в jpg каждый рисунок-долго...да и качество потеряется...
no subject
Date: 2009-02-07 08:44 am (UTC)Мы понимаем, что такое формат PDF? http://www.adobe.com/devnet/pdf/pdf_reference.html
Мы понимаем, что при преобразовании DOC->PDF происходит? Т.е. получается растровое изображение, которое помещается в виде объекта в скрипт PDF.
Для варианта (а) стоит извлечь иллюстрации, преобразование DOC->PDF, PDF->TXT. На основе текста и выгруженных иллюстраций собираем результирующий документ
Для варианта (б) выгружаем из DOC все изображения, конвертируем в JPG и распознаем, потом вырезая иллюстрации из изображений собираем результирующий документ
Принтеры DOC->PDF opensource есть в изобилии - погуглюйте.