[identity profile] nastika.livejournal.com posting in [community profile] useful_faq
В Adobe Acrobat открыт документ на русском языке. Я хочу его содержимое скопировать в Word (или любое другое приложение).
Вставляется бессмыслица типа (увы, привести здесь не получается, поскольку таких значков жж не понимает. примерно такая, какая получится, если вместо кириллицы в браузере выставить западно-европейскую кодировку. Хотя не совсем аналогичная, вставляются пробелы между буквами, количество символов слабо соответствует и вообще полная бессмыслица)
Причем даже если копирую английский текст из этого файла.

Когда копирую англиский текст из английского документа, все вставляется нормально.

Кто виноват (кроме меня) и что делать?

Date: 2008-06-03 10:40 am (UTC)
From: [identity profile] sandeys.livejournal.com
Предположу, что OCR не был выполнен для русского языка изначально.

Date: 2008-06-03 11:01 am (UTC)
From: [identity profile] sandeys.livejournal.com
Слой распознавания, что-то такое. Если честно, с pdf-ками в этом смысле не работала, только с djvu (в них исправляется спец.программой для редактирования, думаю, такая же есть и для pdf-файлов, если действительно проблема именно из-за этого).

Date: 2008-06-03 11:01 am (UTC)
From: [identity profile] columb-us.livejournal.com
Такое бывает. Не знаю, умышленно (для защиты) или нет, но суть в том, что коды букв просто перепутаны. PDF'у, в общем-то, пофиг, он самодостаточен и вообще плохо предназначен для импорта/экспорта. Подобные вещи периодически встречаются и в нормальном тексте, подготовленном правильной верстальной программой. Скажем, лигатура fi вставляется единым символом, и при копировании текста, ее содержащего, возникают всякие глюки.

Очевидно, бороться с этим можно только загнав документ в OCR (распознавалку текстов, напр. FineReader) и распознав весь текст как с картинки. Если качество текста хорошее (что почти гарантировано, он ведь прямо тут рисуется, а не сканируется с бумаги), все будет четко и быстро.

Может, есть и другие способы, но я не знаю.

Date: 2008-06-03 01:28 pm (UTC)
From: [identity profile] haviras.livejournal.com
Fine Reader есть в гугле!

Date: 2008-06-03 10:40 am (UTC)
From: [identity profile] sandeys.livejournal.com
В смысле, в pdf документе при его составлении.

Date: 2008-06-03 10:54 am (UTC)
From: [identity profile] karakhan.livejournal.com
Сталкивался с такой проблемой, но не у Акробата, а у ФайнРидера. Причина была в том, что версия триальная и криво крякнутая.
Но если вы уверены, что с лицензионностью вашего софта все в порядке, то проверяйте в настройках, какие языки подключены и поддерживаются.

Date: 2008-06-03 11:04 am (UTC)
From: [identity profile] columb-us.livejournal.com
Скорее всего, это другая проблема. Обычно она возникает "на ровном месте" с конкретными документами (причем не обязательно формально (т.е. штатными средствами) защищенными), тогда как остальные работают нормально.