[identity profile] allek-san-derr.livejournal.com posting in [community profile] useful_faq
 Возможно ли, для улучшение распознования текста с изображения в FineReader, улучшить его чёткость, резкость, например т.е попытаться улучшить изображения путём его редактирывания???

Date: 2008-05-15 02:07 am (UTC)
From: [identity profile] don-rozario.livejournal.com
Полагаю возможно, попробуйте скормить finereader'у такой вариант (коррекция сделана двумя кликами в фотошоп, т.е. поправлены уровни (levels)) и сравните результат распознавания.

http://up.li.ru/?id=356428;5NBDM2wTea.jpg

Date: 2008-05-15 08:56 am (UTC)
From: [identity profile] max-i-max.livejournal.com
записать последовательность действий над одним сканом в actions (просто нажав кнопку record) и натравить на папку со сканами

Re: Только не смейтесь...

Date: 2008-05-15 10:50 am (UTC)
From: [identity profile] max-i-max.livejournal.com
Где это в (rus) - не знаю.

В нормальной версии:

1. Открыть файл
2. На палитре actions (window-actions) создать новый экшн, автоматически включится запись.
3. Кривыми (проще всего) - высветлить фон бумаги, затемнить текст.
4. добавить unsharp mask (более четкие буквы будут)
5. сохранить (не переименовывая, просто в другую папку)
6. Закрыть.

После чего остановить экшн. и из File - automate - batch запустить этот экшн на выбранную папку со сканами. Результат свалится в ту папку, куда сохранили в 5 пункте обработанный файл.

Date: 2008-05-15 02:09 am (UTC)
From: [identity profile] trojanrabbit.livejournal.com
ну и нафига давать ссылку на пост где комментить нельзя?
гуглите по слову skankromsator/scankromsator. фриварная утилита для подготовки сканеных изображений к дальнейшему использованию

Date: 2008-05-15 08:04 am (UTC)
From: [identity profile] trojanrabbit.livejournal.com
ругается ибо. прав говорит нет.

Re: офф

Date: 2008-05-15 10:42 am (UTC)
From: [identity profile] trojanrabbit.livejournal.com
короче, я имел ввиду что картинку лучше было сюда под кат кинуть, а не давать ссылку на журнал где комменты разрешены только френдам. вот.

Re: офф

Date: 2008-05-15 10:44 am (UTC)
From: [identity profile] trojanrabbit.livejournal.com
а кромсатор я б посоветовал таки глянуть - он как раз для пакетной обработки сканов мощно заточен. я когда книжки сканил с перегонкой в djvu активно им пользовался. даже подробная документация есть в сети.

Date: 2008-05-15 03:35 am (UTC)
From: [identity profile] pan-2.livejournal.com
а что встроенные средства файна совсем влияния не оказывают?
просто не особо много-то и на редактируешь, если придётся по долгу сидеть с каждым сканом, смысл автоматического сканирования просто пропадёт, ибо будет быстрее набить текст руками.

ну а если очень хочется:
1) как ни странно - снижение разрешения скана
2) снижение глубины цвета вплоть до 256 градаций серого или вообще 2 цветов
3) фильтры повышающие резкость (sharpness) изображения

Date: 2008-05-15 09:22 am (UTC)
From: [identity profile] pan-2.livejournal.com
1 и 2 в файне есть, покопайтесь, ибо я не трогал его цать лет

Date: 2008-05-15 08:15 am (UTC)
From: [identity profile] max-i-max.livejournal.com
curves, unsharp mask в фотошопе или гимпе или еще в чем.
или пересканирование в режиме lineart

Date: 2008-05-16 08:34 am (UTC)
From: [identity profile] hilda67.livejournal.com
да, возможно. аккуратно сохраняйте в формате, понятном finereader. лично я так делала.

Date: 2008-05-16 10:49 am (UTC)
From: [identity profile] hilda67.livejournal.com
значит, что когда будешь редактировать изображение (причем тут исходник???), сохраняй страницы в "tiff" (насколько я помню, FineReader не понимает jpeg или gif).

Date: 2008-05-16 10:54 am (UTC)
From: [identity profile] hilda67.livejournal.com
разницу между форматами знаешь? особенности кодировки в каждом из них? если да - вперед. если нет, то все-таки tiff предпочтительнее.

Date: 2008-05-16 11:07 am (UTC)
From: [identity profile] hilda67.livejournal.com
Для сжатия отсканированных фотографий и иллюстраций используется JPEG. Этот алгоритм использует факт, что человеческий глаз чувствителен к изменению яркости отдельных точек изображения, но хуже замечает изменение цвета. Компьютер позволяет отображать более 16 млн цветов, а человек может различить только около сотни. Файл JPEG может быть сжат в десятки раз, но это может привести к необратимой потере информации, а файлы восстановлению не подлежат.

Для рисунков типа диаграмм используется другой алгоритм: поиск повторяющихся в рисунке «узоров». Например, TIFF и GIF, что позволяет сжать файл в несколько раз.

;))) "для общего развития". короче, tiff - самое оно (gif для распознания годится хуже: более "сжатый").

Re: я пишу диплом

Date: 2008-05-16 11:25 am (UTC)
From: [identity profile] hilda67.livejournal.com
;))) чем могу. ;))) может, еще пригожусь когда.

Re: я пишу диплом

Date: 2008-05-16 11:56 am (UTC)
From: [identity profile] hilda67.livejournal.com
нет. времени на обработку точно не будет.