[identity profile] napisvzhurnal.livejournal.com posting in [community profile] useful_faq
Как улучшить фото документа для лучшего распознавания текста в FineReader? Например на этом фото?

IMG_2765

Может ли фотографирование документа заменить сканирование? Как правильно фотографировать документы зеркальной фотокамерой?

Date: 2013-09-04 07:01 am (UTC)
From: [identity profile] q-w-z.livejournal.com
избегать изгиба страниц и неравномерного освещения
фотографировать строго перпендикулярно плоскости страницы

сканирование, конечно, лучше
файнридер и другие OCR для сканеров и придумывались

Date: 2013-09-04 07:04 am (UTC)
From: [identity profile] q-w-z.livejournal.com
если у вас не зеркалка 20+ мегапикселей - то максимального

Date: 2013-09-04 07:08 am (UTC)
From: [identity profile] q-w-z.livejournal.com
контраст +3 резкость +3
размер JPEG не меньше 10мп

Date: 2013-09-04 07:08 am (UTC)
From: [identity profile] q-w-z.livejournal.com
но это всё фигня
главное то, что я указал в первом комменте

Date: 2013-09-04 08:12 am (UTC)
From: [identity profile] dr-trans.livejournal.com
Если наловчиться, то фото быстрее. Я фотиком загоняю в Файнридер 400-500 стр за 15 минут. Библиотечные сканеры тоже на основе камер.

Date: 2013-09-04 09:54 am (UTC)
From: [identity profile] dr-trans.livejournal.com
Так:

Image

Или так:

Image

Не обязательно зеркалка. Хорошей беззеркалки вполне хватает.
Управление через драйвер, который ставится на комп и вызывается через Файнридер (выбирается в настройках источника изображений вместо сканера).

Date: 2013-09-04 09:55 am (UTC)
From: [identity profile] dr-trans.livejournal.com
Если снимаю не сразу в Файнридер, а просто в папку, то все фотографии пакетно обрабатываю в PhotoScape. Смещаю гамму, повышаю контраст, чтобы убрать тон бумаги до белого. Там же пакетно обрезаю поля.

Date: 2013-09-04 09:58 am (UTC)
From: [identity profile] dr-trans.livejournal.com
Книжные сканеры:

Image Image

Там фотокамеры стоят.

Date: 2013-09-04 07:17 am (UTC)
From: [identity profile] somebody-loving.livejournal.com
я обычной мыльницей фоткала, потом четкость и контраст в фш и в файнридер.

Date: 2013-09-04 07:22 am (UTC)
From: [identity profile] pass-a-word.livejournal.com
Поставил на гуглофон программу CamScanner. Фотографирую телефоном и получаю PDF. Можно регулировать яркость и контраст.

Date: 2013-09-04 08:14 am (UTC)
From: [identity profile] dr-trans.livejournal.com
И что? Тут спросили о распознавании.

Date: 2013-09-04 09:25 am (UTC)
From: [identity profile] christos.livejournal.com
И то. Программа CamScanner исправляет огрехи фотографирования: выравнивает документ, повышает четкость снимка и выводит PDF файл отлично оптимизированный для дальнейшего распознавания тем же FineReader'ом или другими распознавалками. Проще чем морочиться с зеркалками, освещением и правильным углом фотографирования, поставить программу на мобильник, фоткать мобильником и получать отличный вариант на выходе с минимумом заморочек.

Date: 2013-09-04 10:00 am (UTC)
From: [identity profile] dr-trans.livejournal.com
А зачем делать дурную работу?
Загонять JPG-растр в PDF-контейнер, чтобы потом FineReader обратно извлекал этот растр в TIFF?
Полностью автоматический режим -- это не самое лучшее решение.
Управляемые процессы дают более качественный результат.

Date: 2013-09-04 10:01 am (UTC)
From: [identity profile] dr-trans.livejournal.com
Кроме того, исправление трапеции, изгиба страницы и многого другого ФайнРидер выполняет автоматически после получения снимка с фотоаппарата. А также делит разворот на 2 страницы.

Date: 2013-09-04 07:55 am (UTC)
From: [identity profile] tornader.livejournal.com
в картинке - в фотошопе сделать auto contrast + повысить резкость (новый слой, filter-high pass + режим наложения overlay)
если массово - можно сделать сценарий.

а фотиком - можно снимать вполне.
фотик на штатив, спуск нажимать дистанционкой, чтоб не трясти.
диафрагма - зависит от объектива, но я думаю - 8 .. 10. так, что бы резкость была хорошей по всей странице
фотик помещать в центр страниц и не очень близко. снимать на фокусном расстоянии 50 .. 100 мм. чтоб избежать геометрических искажений.
освещать равномерно, рассеяным светом (чтоб не просвечивали символы на обороте)
примерно так.
Edited Date: 2013-09-04 07:55 am (UTC)

Date: 2013-09-04 08:15 am (UTC)
From: [identity profile] dr-trans.livejournal.com
Спуск нажимается мфшкой прямо из файнридера. Второй рукой листаешь.

Date: 2013-09-04 09:02 am (UTC)
From: [identity profile] q-w-z.livejournal.com
контраст файн-ридер сам делает

Date: 2013-09-04 12:17 pm (UTC)
From: [identity profile] sould.livejournal.com
В первом комментарии вам правильно про условия съемки уже сказали. Того, что происходит с левой страницей на вашем фото, быть не должно. Борьба с изгибом возле корешка будет главной проблемой, думаю.
По поводу настроек, размера. Сфотографированный текст должен быть абсолютно комфортно читаем вами, без хоть сколько-нибудь заметных пиксельных "квадратиков", без малейших сомнений что за буква, без темного фона страниц, тогда и программе он будет по зубам. Экспериментально на одной странице подберите, свет сами поставьте, чтобы контрастно максимально было (максимально белый фон), штатив.
Если не книга с корешком, то и быстрее сканера может быть. Но сканер всё же удобней.