useful_faq | FineReader

begemotik64 posting in

Где в файнридере находится заветная галочка, поставив которую, можно приказать этой прекрасной программе не разносить к чертям верстку уже собранного PDF? Я извращалась по-всякому, но даже при наличии сканов одного размера, сделанных на одном устройстве, гадская прога при сохранении распознанного документа в PDF изменяет размеры страниц по своему усмотрению, в результате в итоговом PDF все страницы разной ширины. А нужно, чтоб одной (длина не волнует).
Интересует только одинаковая ширина страниц в PDF. Acrobat так не гадит, но и с русским дореформенным не работает, а у меня почти сплошь дореволюционка.
Помогите советом, пожалуйста, явно это как-то просто делается, но я что-то торможу.
ПРАВИЛЬНЫЙ ОТВЕТ НА МОЙ ВОПРОС:
Задайте в настройках "режим бумаги по умолчанию ПОЛЬЗОВАТЕЛЬСКИЙ"
Не размер оригинала, это не срабатывает, нужен именно пользовательский.

Flat | Top-Level Comments Only

From:

dr-trans.livejournal.com

А зачем выгонять из FR сразу в PDF? Моет, лучше в редакторе доработать?
Уточните задачу. Дайте пример текста. У меня есть одна мысль и средство. Но я должен быть уверен в релевантности.

From:

begemotik64

Есть пдф. Он нужен в распознанном виде, чтобы содержание нормальное приляпать. В Акробате все просто, распознал, сохранил - вся любовь. Ничего не корежится,хотя в процессе работы акробат документ крутит, как ему заблагорассудится. Но сохраняется распознанный нормально, страницы как были одной ширины, так и остались. А FR при аналогичной задаче - ТОЛЬКО распознать - при сохранении меняет ширину страниц. Не нужно никаких изысков, только сохранение с одинаковой шириной страниц.

From:

dr-trans.livejournal.com

если ваш исходный PDF содержит растровые страницы, т.е. "сканы", то я подозреваю, что страницы отсканированы с разным разрешением, а потом собраны в единый PDF...
вам надо экспортировать этот PDF постранично с ратсровые файлы, потом пакетно изменить размер этих растров (например, задать 2400 пкс по горизонтали), чтобы он был един по ширине для всех файлов, а потом распознавать.

From:

begemotik64

Неправильно подозреваете. Расширение одно и то же. Проверено.
И да, распознавание в других программах таких проблем не доставляет. Но они хреново распознают дореформенный.

From:

dr-trans.livejournal.com

> Расширение одно и то же.
А разрешение?

From:

begemotik64

аналогично.

From:

dr-trans.livejournal.com

если PDF содержит электронный текст (легко проверить выделением и копированием текста из PDF), то не надо его распознавать. его надо конвертировать.

From:

dr-trans.livejournal.com

и все равно лучше бы увидеть сам файл

From:

begemotik64

Эта проблема вылезает с обработкой в FR любой дореволюционной книги. И советской - тоже. Но с советскими справляется акробат.
И вопрос-то простой - как задать в FR только распознавание,без любых дополнительных функций. Как распознает - так и ладно, это не предпечатная подготовка, я просто облегчаю себе работу по приляпыванию содержания, не более того.

From:

dr-trans.livejournal.com

Поменяйте формат вывода. В толе, где написано "простой текст", есть и другие параметры.

НЕ ДЕЛАЙТЕ PDF в Файнридере. Получите сперва нормальный редактируемый файл, а потом уже из него делайте файнридер.
Покажите исходный файл. (https://postimg.org/image/71dpyvzc3/)

Edited Date: 2016-10-17 04:05 pm (UTC)

From:

begemotik64

Я не собираюсь что-либо, кроме разрезки страниц, делать с исходником до распознавания. Мне НЕ НУЖНО что-то, кроме распознавания уровня любой другой программы. С FRсвязалась только из-за дореформенной орфографии.
ГЫ. ну,посмотрите
https://yadi.sk/d/5rac7jncCP4wo
И нет, меня не устраивает другой формат вывода.
Меня интересует, как заставить FR не выеживаться и выдать только слой распознанного текста вместе с исходником, не меняя ширину страниц, точно так же, как делает это любая другая программа. Все.

From:

dr-trans.livejournal.com

А-а, вам еще хочется иметь цифровой слой текста поверх растра? Так вам не сюда, гг. Вам в DejaVu надо.

From:

begemotik64

Нет. Мне НЕ НАДО DejaVu. Мне нужна простая вещь - узнать, как задать в итоговом документе FineReader ОДИНАКОВУЮ ШИРИНУ СТРАНИЦ, ту же, что в исходнике. ВСЕ.

From:

sizif73.livejournal.com

С FR в PDF не занимался, но в Опциях на вкладках "сохранить" и "PDF" в настройках есть "Размер бумаги по умолчанию". Я бы с ним поэкспериментировал. Ну, и там "Качество изображения" есть еще.

From:

begemotik64

попробую, спасибо.

From:

begemotik64

Вы оказались правы.Спасибо Вам огромное.

From:

dr-trans.livejournal.com

Да, как и предполагалось, причина в разном разрешении страниц. Файнридер измеряет длину строки (минус поля), а в файле страницы -- это фотографии, снятые с разной высоты, из-за этого угловой охват страниц разный... вот эти гуляния в пределах 100 пкс дают разные ширины страниц. Смотрите, я отметил опорные размеры, на которое ориентируется Файнридер при воссоздании страниц.

Если бы книгу сканировали на планшетном сканере, то эти размеры были бы одинаковыми. А у нас книгу фотографировали с рук каждый кадр чуть выше или чуть ниже... Со штатива надо снимать. ;)

Решение есть.
Разделить все развороты и устранить перекосы средствами Файнридера.
Сохранить все страны в отдельные файлы в растре.
Руками обрезать лишнее.
Пакетно задать единый размер по ширине.
Потом обратно сунуть в Фанридер и распознать.
Там всего 220 стр. Это работы часа на 2.

Edited Date: 2016-10-17 04:43 pm (UTC)

From:

begemotik64

Черт. НЕ НУЖНО.Так понятно? Не нужно устранять перекосы. Хотя бы потому, что со сканами ФР делает то же самое. И да, со сканами одного разрешения и одного размера. На вопрос ответить можете? На простой вопрос - как задать в итоговом документе одинаковую ширину страниц,ту, что в исходнике?

From:

aleram.livejournal.com

Да вы так не кипятитесь.
Забейте в поисковик FineReader исходный текст - выдаст что то типа этого:
Редактор ABBYY FineReader поддерживает два режима просмотра документа: режим с полным сохранением исходного оформления документа и черновой режим просмотра.

В режиме с полным сохранением исходного оформления документа блоки с распознанным текстом, таблицами и картинками отображаются именно там, где они были в исходном изображении. Таким образом, в этом режиме сохраняется исходный вид изображения: колонки, таблицы, картинки и буквицы (большие буквы на несколько строк в абзаце). Блок, в котором находится курсор, является активным. При перемещении курсора с помощью клавиатуры последовательность обхода блоков определяется их порядковыми номерами. Если текст блока не умещается внутри его границ (например, в результате редактирования распознанного текста), то часть текста неактивного блока может быть не видна на экране. Признаком этого являются специальные красные маркеры на границах блока. Когда блок становится активным, его границы расширяются таким образом, чтобы весь его текст был виден на экране целиком.

В черновом режиме редактора не отображаются: левый отступ; выравнивание абзаца (все абзацы прижаты к левому краю); цвет и фон символов. Для показа текста используется шрифт одного размера (по умолчанию 12 пт.). При этом сохраняется шрифт и форматирование текста: полужирный, курсив, подчеркнутый, верхние и нижние индексы.

Переход из одного режима в другой осуществляется нажатием кнопок (режим отображения исходного оформления документа) и (черновой режим редактора) в окне Текст.

Ну это я для примера. В FR особо не копалась. Сами смотрите, что подходит к вашей версии FR.
Итог: запрос в поисковике: исходный текст в FineReader )))

From:

begemotik64

пыталась искать исходное оформление, не нашла. Спасибо за совет. Ща полезу смотреть,какой у меня стоит, вдруг да сработает.

From:

dr-trans.livejournal.com

А поистерить? :) У человека же явно задача "хуяк-хуяк, и в продакшн", а мы тут рассказываем, как работать с текстом правильно... :)

From:

begemotik64

Не судите, да не судимы будете.

From:

dr-trans.livejournal.com

Ее задать нельзя. Поэтому я сразу ответил на следующий вопрос "А как же быть?" :)
Можно только сохранить неформатированный текст и потом задать нужную ширину страниц в Ворде. И после этого уже экспортировать в PDF.

Не бывает на фотоаппаратах кнопки "Шедевр". И в Файнридере нет кнопки "Сделать Алене хорошо". :)

Edited Date: 2016-10-17 05:54 pm (UTC)

From:

begemotik64

Ошибаетесь.Есть. И не стоит браться отвечать на вопросы, если Вы не знаете ответ.
А он звучит так - Задайте в настройках "режим бумаги по умолчанию ПОЛЬЗОВАТЕЛЬСКИЙ".

From:

dr-trans.livejournal.com

Я просто никогда не вывожу финальный файл прямо из ФР, я всегда обрабатываю в другой программе. Так надежнее. Если вам надо лишь бы как, но быстро, то это ваш выбор. Я так не работаю.

From:

dr-trans.livejournal.com

С размером листа вы разобрались. Но поля и размер шрифта у вас все равно поедут и на каждой странице будет свое.

From:

begemotik64

Так они и изначально не так чтоб шибко одинаковые. И да, меня это устраивает, на то есть особые причины.
Представьте себе, я пользуюсь далеко не одной программой. Но мне нужен определенный итог, и не тот, какой нравится Вам, а тот, который нужен мне.

From:

begemotik64

И я не знаю, когда дойдут руки переделать эту книжку .Сейчас у меня в работе другая - полторы тыщи с гаком отсканированных страниц. И таких многостраничных у меня под сотню. И да, я их предварительно обрабатываю, обрезаю и пакетно меняю размер страниц на одинаковый. И я очень хорошо знаю, что мне в итоге выдаст ФР - каку. Акробат выдаст то, что нужно, но без дореформенных букв.
Акробат при распознавании крутит страницы в случае нужды. Но сохраняет он их неперекрученными. И одной, одинаковой ширины. КАК добиться того же самого от ФР? Как задать одинаковую(конкретно, ту же, что в исходнике) ширину страниц в этой чертовой шибко умной программе?

From:

dr-trans.livejournal.com

Никак. Уже ответил выше.
Надо выводить в редактируемый формат и там подправлять параметры страницы глобально во всем файле.
А в Акробате нет режима обучения? Там же этих дореформенных букв не так много.

From:

dr-trans.livejournal.com

Кстати, какая версия ФР? Я использую 11. Но по-прежнему люблю 8 (там были некоторые удобные функции, которые потом убрали почему-то). Они становятся все хуже и хуже в плане невозможности вмешательства в процесс, это факт.

From:

begemotik64

12. Я не уверена, что дореформенная орфография была в более ранних, а мне нужна только она.

From:

chva.livejournal.com

Проверка дореволюционной орфографии появилась в 12-й версии, а возможность распознавать дореволюционную орфографию была и раньше.

From:

begemotik64

Чего уж теперь... Работает эта - и ладно.

Flat | Top-Level Comments Only