useful_faq | Вытаскивание текста из pdf.

sir-i-alexis.livejournal.com posting in

Есть документ в формате pdf. Текст хорошего качества. Он легко выделяется и копируется в буфер. Но при вставке отображается крякозябрами.

Пробовал и в Adobe Reader, и в Foxit Reader - результат один.
Пробовал скормить декодеру Лебедева - бестолку.
Со всеми другими пдфками все работает правильно.

В чем может быть дело и как это лечить?

Спасибо!

Flat | Top-Level Comments Only

From:

f2065.livejournal.com

Выкладывай куда-нибудь этот pdf… Иначе сложно диагностировать проблему. Ну может там интегрирован нестандартный фонт, или код фонта где-то нестандартный, может там на самом деле выделяется не то что кажется.

В крайнем случае его можно в FineReader распознать :)

(screened comment)

From:

f2065.livejournal.com

И где там «Текст хорошего качества» ?! Это только обложка, а вся книга - в графике.
Текст обложки не копирутся потому что там действительно встроенные шрифты и у них нестандартная кодировка. При большом желании можно её восстановить за 33*2 замены (вставляем всё в ворд, вслепую копируем в поиск первый квадратик, смотрим в пдф что за буква, и выполняем замену квадратика на эту букву по всему документу, затем повторяем всё для другого квадратика, и так ~70 раз). Вероятно есть и какие-то автоматизированные средства для борьбы с таким явлением.

Но, в данном примере, основной текст книги - обычные сканы :(
Причём плохого качества. Так что надо брать FineReader последний, и прогонять через него.

From:

sir-i-alexis.livejournal.com

Спасибо!

From:

max-i-max.livejournal.com

из фоксита сохранить как текст, часто помогает.

From:

necrodesign.livejournal.com

Если книга небольшая, то можно воспользоваться http://www.abbyy.ru/screenshot_reader/ , а не ФайнРидером. Я пользуюсь - отличная прога, распознаёт даже очень плохо отсканированный текст.

Flat | Top-Level Comments Only

Полезные вопросы

Вытаскивание текста из pdf.

Вытаскивание текста из pdf.

no subject

no subject

no subject

no subject

no subject