Вытаскивание текста из pdf.
May. 25th, 2010 11:00 pm![[identity profile]](https://www.dreamwidth.org/img/silk/identity/openid.png)
![[community profile]](https://www.dreamwidth.org/img/silk/identity/community.png)
Есть документ в формате pdf. Текст хорошего качества. Он легко выделяется и копируется в буфер. Но при вставке отображается крякозябрами.
Пробовал и в Adobe Reader, и в Foxit Reader - результат один.
Пробовал скормить декодеру Лебедева - бестолку.
Со всеми другими пдфками все работает правильно.
В чем может быть дело и как это лечить?
Спасибо!
Пробовал и в Adobe Reader, и в Foxit Reader - результат один.
Пробовал скормить декодеру Лебедева - бестолку.
Со всеми другими пдфками все работает правильно.
В чем может быть дело и как это лечить?
Спасибо!
no subject
Date: 2010-05-25 07:07 pm (UTC)В крайнем случае его можно в FineReader распознать :)
no subject
Date: 2010-05-25 07:38 pm (UTC)Текст обложки не копирутся потому что там действительно встроенные шрифты и у них нестандартная кодировка. При большом желании можно её восстановить за 33*2 замены (вставляем всё в ворд, вслепую копируем в поиск первый квадратик, смотрим в пдф что за буква, и выполняем замену квадратика на эту букву по всему документу, затем повторяем всё для другого квадратика, и так ~70 раз). Вероятно есть и какие-то автоматизированные средства для борьбы с таким явлением.
Но, в данном примере, основной текст книги - обычные сканы :(
Причём плохого качества. Так что надо брать FineReader последний, и прогонять через него.
no subject
Date: 2010-05-25 07:40 pm (UTC)no subject
Date: 2010-05-25 07:17 pm (UTC)no subject
Date: 2010-05-25 07:45 pm (UTC)