[identity profile] hmyr.livejournal.com posting in [community profile] useful_faq
Решил озаботится сканированием своего архива старых журналов.
Архив большой и журналы разные. От "Смехача" 1928 через "Мурзилку" и "Вокруг света" 80-х к "Науке и жизни" и "Химии и жизни" начала 90-х.
Шрифты, картинки и прочие виньетки...
Порывшись в разных архивах журналов выложенных в сети назрели вопросы.
Вопросы:
1. Каким наилучшим образом сохранять страницу? (PDF, DJVU, RTF, JPG, TIFF)
2. В случае сканирование текста оставлять ли шрифт изначальным?
3. Имеет ли смысл делать скан (jpg) а затем рядом с ним выкладывать распознанный текст

PS В общем любые советы и прочее и прочее....

Date: 2007-06-04 09:56 pm (UTC)
From: [identity profile] vayoki.livejournal.com
"От "Смехача" 1928 через "Мурзилку" и "Вокруг света" 80-х к "Науке и жизни" и "Химии и жизни" начала 90-х. Шрифты, картинки и прочие виньетки..."

классно :)
Я за PDF, а куда постить будете?

Date: 2007-06-04 10:41 pm (UTC)
From: [identity profile] network-owl.livejournal.com
Распознанный — совсем даже не "ого-го", едва ли до 2х десятков метров на журнал дойдёт,
а если распознавать лень и качество не сильно критично — стоит приглядеться к djvu.

Date: 2007-06-05 06:09 pm (UTC)
From: [identity profile] alb-wiki.livejournal.com
А что, на djvu тоже хочится отчитанный шар (слой).

Date: 2007-06-04 11:59 pm (UTC)
From: [identity profile] mftsch.livejournal.com
Не ого-го. ПДФ использует джпег-алгоритм сжатия изображений. А он сжимает до сотни раз по сравнению с изначальным весом.

Date: 2007-06-04 11:58 pm (UTC)
From: [identity profile] mftsch.livejournal.com
Учитывая, что тут журналы 20-х годов и прочие раритеты с оформлением не менее интересным, чем текст - однозначно пдф.
Да и вообще он вне конкуренции.

Плюсы пдф:
- Быстрая обработка. Распознавать не нужно. Отсканировал страницу - сразу в пдф. Потом одним движением собираем страницы в одну книгу.
- Мало места. ПДФ использует мощный джпег-алгоритм сжатия изображений.
- Мультистраничность.
- Не требует специальной программы, как джву.
- Адоб Акробат(в котором открывается пдф) заточен под чтение документов. Всё для этого сделано.
Джпег или Тифф для этого неудобны.

Распознавать, имхо, только тратить драгоценное время. Это же журнал, а не книга.
Кому понадобится текст - перепечатает.

Date: 2007-06-05 09:22 am (UTC)
From: [identity profile] mftsch.livejournal.com
Я когда-то тоже так планировал делать. Сканирование+распознавание+вёрстка(!).
Безумный объём работы. Не стоит того, поверьте. Представьте, сколько времени вы будете сидеть над каждой страницей?

Скан->пдф. Всё.

Date: 2007-06-05 04:52 am (UTC)
From: [identity profile] pan-2.livejournal.com
>> мощный джпег-алгоритм сжатия изображений
да, компрессия там такая зачастую выставлена, что на картинки при увеличении без слёз не взглянешь.

Date: 2007-06-05 06:11 am (UTC)
From: [identity profile] mftsch.livejournal.com
А пользователю руки на что? Чтобы оптимальную степень сжатия выставить.

Date: 2007-06-05 02:39 pm (UTC)
From: [identity profile] pan-2.livejournal.com
ага, потом придут юзвери и будут жаловаться что ПДФы слишком большие, сделайте поменьше =)

Date: 2007-06-05 06:11 pm (UTC)
From: [identity profile] alb-wiki.livejournal.com
перепечатает. Смешно. Зотя если другого не дано...

Date: 2007-06-05 04:53 am (UTC)
From: [identity profile] pan-2.livejournal.com
либо ПДФ (буээ), либо ЖПГ/ПНГ высокого качества (пример среднего качества вот (http://flickr.com/photo_zoom.gne?id=529388107&context=photostream&size=l))

Date: 2007-06-05 09:22 am (UTC)
From: [identity profile] mftsch.livejournal.com
Вместо того, чтобы читать книгу целиком, вы предпочитаете читать ту же книгу, но по отдельным листкам? :)

Date: 2007-06-05 02:38 pm (UTC)
From: [identity profile] pan-2.livejournal.com
а вы когда читаете обычную книгу, раздербаниваете её на куски, склеиваете в длинный рулон (ага) или каждую друг с другом матрицей 5*10 и ЧИТАЕТЕ её ВСЮ и сразу? или всё-таки читаете последовательно по странице или развороту?
ЗЫ в своё время перечитал весь I'ss, это 1500 сканов как одно, так и двух-страничных, проблем небыло, а вот при чтении почти любого файла в ПДФ - нестерпимое желание прибить создателей адобе ридер, т.к. если нет 39 дюймового монитора и мальчика-покрути-скролл - читать нормально немогу, юзабилити никакое

Date: 2007-06-05 04:55 am (UTC)
From: [identity profile] pan-2.livejournal.com
БТВ, при наличии правльного софта (CDisplay) читать jpg можно очень удобно

Date: 2007-06-05 05:53 am (UTC)
From: [identity profile] j-a-b-b-e-r.livejournal.com
я за PDF ... с распознованием замучаетесь однозначно, придется все ручками проделать ... оформление "уползет", в общем лучше уж PDF.

ЗЫ... очень бы хотелось увидеть результат работы :)

Date: 2007-06-05 08:27 am (UTC)
From: [identity profile] bbb28.livejournal.com
Я тут (практичсеки случайно) обнаружил, что в DJVU имеется и распознанный текст. Т.е. пожно выделять, искать, экспортировать именнь текст. Возможно, конечно, это опционально (сам с этим форматом лишь недавно столкнулся), но факт тот, что в тех DJVU-файлах, которые я смотрел (а это были скаченные жруналы "Юный техник"), текст как текст каким-то образом присутствовал.

Date: 2007-06-05 09:57 am (UTC)
From: [identity profile] wisegrey.livejournal.com
Да, есть и разновидность DJVU с текстовыми слоями. И вот для их просмотра и нужен специальный софт. А обычные DJVU являются по сути просто графикой и просмотреть их можно обычной графической гляделкой типа Acdsee

Date: 2007-06-05 10:09 am (UTC)
From: [identity profile] bbb28.livejournal.com
Фиг знает. У меня ACDSee DJVU (правда, старая, v.3.1) не показывает. Но, что любопытно, асофиировалась с типом DJVU именно она. А просматриваю с помощью WinDjView.

Date: 2007-06-05 11:22 am (UTC)
From: [identity profile] creta.livejournal.com
безумству храбрых...
может быть я немного сохраню ваше время и силы, если скажу что Наука и Жизнь сама уже отсканировала часть своих архивов и выпустила диск, всего 100р а сил куча съэкономлена:) они начали с 90-х и обещали двигаться дальше

Date: 2007-06-05 02:03 pm (UTC)
From: [identity profile] nastyab.livejournal.com
а где этот диск можно приобрести не подскажете?

Date: 2007-06-06 06:20 am (UTC)
From: [identity profile] creta.livejournal.com
http://www.nkj.ru/texts/9061/
но как-то сильно дороже, чем они на нон-фикшине продавали
или я уже забыла

Date: 2007-06-05 06:13 pm (UTC)
From: [identity profile] alb-wiki.livejournal.com
есть где-либо в сети? Я ведь тоже имею НиЖ и, признаться отдельные статиь буду сканить в личных, сказать, целях.