[identity profile] sir-i-alexis.livejournal.com posting in [community profile] useful_faq
Есть документ в формате pdf. Текст хорошего качества. Он легко выделяется и копируется в буфер. Но при вставке отображается крякозябрами.

Пробовал и в Adobe Reader, и в Foxit Reader - результат один.
Пробовал скормить декодеру Лебедева - бестолку.
Со всеми другими пдфками все работает правильно.

В чем может быть дело и как это лечить?

Спасибо!

Date: 2010-05-25 07:07 pm (UTC)
From: [identity profile] f2065.livejournal.com
Выкладывай куда-нибудь этот pdf… Иначе сложно диагностировать проблему. Ну может там интегрирован нестандартный фонт, или код фонта где-то нестандартный, может там на самом деле выделяется не то что кажется.

В крайнем случае его можно в FineReader распознать :)
(screened comment)

Date: 2010-05-25 07:38 pm (UTC)
From: [identity profile] f2065.livejournal.com
И где там «Текст хорошего качества» ?! Это только обложка, а вся книга - в графике.
Текст обложки не копирутся потому что там действительно встроенные шрифты и у них нестандартная кодировка. При большом желании можно её восстановить за 33*2 замены (вставляем всё в ворд, вслепую копируем в поиск первый квадратик, смотрим в пдф что за буква, и выполняем замену квадратика на эту букву по всему документу, затем повторяем всё для другого квадратика, и так ~70 раз). Вероятно есть и какие-то автоматизированные средства для борьбы с таким явлением.

Но, в данном примере, основной текст книги - обычные сканы :(
Причём плохого качества. Так что надо брать FineReader последний, и прогонять через него.

Date: 2010-05-25 07:17 pm (UTC)
From: [identity profile] max-i-max.livejournal.com
из фоксита сохранить как текст, часто помогает.

Date: 2010-05-25 07:45 pm (UTC)
From: [identity profile] necrodesign.livejournal.com
Если книга небольшая, то можно воспользоваться http://www.abbyy.ru/screenshot_reader/ , а не ФайнРидером. Я пользуюсь - отличная прога, распознаёт даже очень плохо отсканированный текст.