FineReader

Oct. 17th, 2016 05:57 pm
begemotik64: (Default)
[personal profile] begemotik64 posting in [community profile] useful_faq
Где в файнридере находится заветная галочка, поставив которую, можно приказать этой прекрасной программе не разносить к чертям верстку уже собранного PDF? Я извращалась по-всякому, но даже при наличии сканов одного размера, сделанных на одном устройстве, гадская прога при сохранении распознанного документа в PDF изменяет размеры страниц по своему усмотрению, в результате в итоговом PDF все страницы разной ширины. А нужно, чтоб одной (длина не волнует).
Интересует только одинаковая ширина страниц в PDF. Acrobat так не гадит, но и с русским дореформенным не работает, а у меня почти сплошь дореволюционка.
Помогите советом, пожалуйста, явно это как-то просто делается, но я что-то торможу.
ПРАВИЛЬНЫЙ ОТВЕТ НА МОЙ ВОПРОС:
Задайте в настройках "режим бумаги по умолчанию ПОЛЬЗОВАТЕЛЬСКИЙ"
Не размер оригинала, это не срабатывает, нужен именно пользовательский.

Date: 2016-10-17 03:22 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
А зачем выгонять из FR сразу в PDF? Моет, лучше в редакторе доработать?
Уточните задачу. Дайте пример текста. У меня есть одна мысль и средство. Но я должен быть уверен в релевантности.

Date: 2016-10-17 03:51 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
если ваш исходный PDF содержит растровые страницы, т.е. "сканы", то я подозреваю, что страницы отсканированы с разным разрешением, а потом собраны в единый PDF...
вам надо экспортировать этот PDF постранично с ратсровые файлы, потом пакетно изменить размер этих растров (например, задать 2400 пкс по горизонтали), чтобы он был един по ширине для всех файлов, а потом распознавать.

Date: 2016-10-17 04:00 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
> Расширение одно и то же.
А разрешение?

Date: 2016-10-17 03:52 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
если PDF содержит электронный текст (легко проверить выделением и копированием текста из PDF), то не надо его распознавать. его надо конвертировать.

Date: 2016-10-17 03:52 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
и все равно лучше бы увидеть сам файл

Date: 2016-10-17 04:03 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
Поменяйте формат вывода. В толе, где написано "простой текст", есть и другие параметры.
Image
НЕ ДЕЛАЙТЕ PDF в Файнридере. Получите сперва нормальный редактируемый файл, а потом уже из него делайте файнридер.
Покажите исходный файл.
(https://postimg.org/image/71dpyvzc3/)
Edited Date: 2016-10-17 04:05 pm (UTC)

Date: 2016-10-17 04:32 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
А-а, вам еще хочется иметь цифровой слой текста поверх растра? Так вам не сюда, гг. Вам в DejaVu надо.

Date: 2016-10-17 04:12 pm (UTC)
From: [identity profile] sizif73.livejournal.com
С FR в PDF не занимался, но в Опциях на вкладках "сохранить" и "PDF" в настройках есть "Размер бумаги по умолчанию". Я бы с ним поэкспериментировал. Ну, и там "Качество изображения" есть еще.

Date: 2016-10-17 04:41 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
Да, как и предполагалось, причина в разном разрешении страниц. Файнридер измеряет длину строки (минус поля), а в файле страницы -- это фотографии, снятые с разной высоты, из-за этого угловой охват страниц разный... вот эти гуляния в пределах 100 пкс дают разные ширины страниц. Смотрите, я отметил опорные размеры, на которое ориентируется Файнридер при воссоздании страниц.

Image

Если бы книгу сканировали на планшетном сканере, то эти размеры были бы одинаковыми. А у нас книгу фотографировали с рук каждый кадр чуть выше или чуть ниже... Со штатива надо снимать. ;)

Решение есть.
Разделить все развороты и устранить перекосы средствами Файнридера.
Сохранить все страны в отдельные файлы в растре.
Руками обрезать лишнее.
Пакетно задать единый размер по ширине.
Потом обратно сунуть в Фанридер и распознать.
Там всего 220 стр. Это работы часа на 2.
Edited Date: 2016-10-17 04:43 pm (UTC)

Date: 2016-10-17 05:34 pm (UTC)
From: [identity profile] aleram.livejournal.com
Да вы так не кипятитесь.
Забейте в поисковик FineReader исходный текст - выдаст что то типа этого:
Редактор ABBYY FineReader поддерживает два режима просмотра документа: режим с полным сохранением исходного оформления документа и черновой режим просмотра.

В режиме с полным сохранением исходного оформления документа блоки с распознанным текстом, таблицами и картинками отображаются именно там, где они были в исходном изображении. Таким образом, в этом режиме сохраняется исходный вид изображения: колонки, таблицы, картинки и буквицы (большие буквы на несколько строк в абзаце). Блок, в котором находится курсор, является активным. При перемещении курсора с помощью клавиатуры последовательность обхода блоков определяется их порядковыми номерами. Если текст блока не умещается внутри его границ (например, в результате редактирования распознанного текста), то часть текста неактивного блока может быть не видна на экране. Признаком этого являются специальные красные маркеры на границах блока. Когда блок становится активным, его границы расширяются таким образом, чтобы весь его текст был виден на экране целиком.

В черновом режиме редактора не отображаются: левый отступ; выравнивание абзаца (все абзацы прижаты к левому краю); цвет и фон символов. Для показа текста используется шрифт одного размера (по умолчанию 12 пт.). При этом сохраняется шрифт и форматирование текста: полужирный, курсив, подчеркнутый, верхние и нижние индексы.

Переход из одного режима в другой осуществляется нажатием кнопок (режим отображения исходного оформления документа) и (черновой режим редактора) в окне Текст.

Ну это я для примера. В FR особо не копалась. Сами смотрите, что подходит к вашей версии FR.
Итог: запрос в поисковике: исходный текст в FineReader )))

Date: 2016-10-17 06:30 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
А поистерить? :) У человека же явно задача "хуяк-хуяк, и в продакшн", а мы тут рассказываем, как работать с текстом правильно... :)

Date: 2016-10-17 05:53 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
Ее задать нельзя. Поэтому я сразу ответил на следующий вопрос "А как же быть?" :)
Можно только сохранить неформатированный текст и потом задать нужную ширину страниц в Ворде. И после этого уже экспортировать в PDF.

Не бывает на фотоаппаратах кнопки "Шедевр". И в Файнридере нет кнопки "Сделать Алене хорошо". :)
Edited Date: 2016-10-17 05:54 pm (UTC)

Date: 2016-10-17 06:27 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
Я просто никогда не вывожу финальный файл прямо из ФР, я всегда обрабатываю в другой программе. Так надежнее. Если вам надо лишь бы как, но быстро, то это ваш выбор. Я так не работаю.

Date: 2016-10-17 06:29 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
С размером листа вы разобрались. Но поля и размер шрифта у вас все равно поедут и на каждой странице будет свое.

Date: 2016-10-17 05:56 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
Никак. Уже ответил выше.
Надо выводить в редактируемый формат и там подправлять параметры страницы глобально во всем файле.
А в Акробате нет режима обучения? Там же этих дореформенных букв не так много.

Date: 2016-10-17 05:58 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
Кстати, какая версия ФР? Я использую 11. Но по-прежнему люблю 8 (там были некоторые удобные функции, которые потом убрали почему-то). Они становятся все хуже и хуже в плане невозможности вмешательства в процесс, это факт.

Date: 2016-10-18 09:22 am (UTC)
From: [identity profile] chva.livejournal.com
Проверка дореволюционной орфографии появилась в 12-й версии, а возможность распознавать дореволюционную орфографию была и раньше.