Сканирование старых журналов
Jun. 5th, 2007 01:11 am![[identity profile]](https://www.dreamwidth.org/img/silk/identity/openid.png)
![[community profile]](https://www.dreamwidth.org/img/silk/identity/community.png)
Решил озаботится сканированием своего архива старых журналов.
Архив большой и журналы разные. От "Смехача" 1928 через "Мурзилку" и "Вокруг света" 80-х к "Науке и жизни" и "Химии и жизни" начала 90-х.
Шрифты, картинки и прочие виньетки...
Порывшись в разных архивах журналов выложенных в сети назрели вопросы.
Вопросы:
1. Каким наилучшим образом сохранять страницу? (PDF, DJVU, RTF, JPG, TIFF)
2. В случае сканирование текста оставлять ли шрифт изначальным?
3. Имеет ли смысл делать скан (jpg) а затем рядом с ним выкладывать распознанный текст
PS В общем любые советы и прочее и прочее....
Архив большой и журналы разные. От "Смехача" 1928 через "Мурзилку" и "Вокруг света" 80-х к "Науке и жизни" и "Химии и жизни" начала 90-х.
Шрифты, картинки и прочие виньетки...
Порывшись в разных архивах журналов выложенных в сети назрели вопросы.
Вопросы:
1. Каким наилучшим образом сохранять страницу? (PDF, DJVU, RTF, JPG, TIFF)
2. В случае сканирование текста оставлять ли шрифт изначальным?
3. Имеет ли смысл делать скан (jpg) а затем рядом с ним выкладывать распознанный текст
PS В общем любые советы и прочее и прочее....
no subject
Date: 2007-06-04 09:56 pm (UTC)классно :)
Я за PDF, а куда постить будете?
no subject
Date: 2007-06-04 10:17 pm (UTC)no subject
Date: 2007-06-04 10:41 pm (UTC)а если распознавать лень и качество не сильно критично — стоит приглядеться к djvu.
no subject
Date: 2007-06-04 10:55 pm (UTC)И текст распознавать чувствую придется..
Попробую все таки PDF
no subject
Date: 2007-06-05 06:09 pm (UTC)no subject
Date: 2007-06-04 11:59 pm (UTC)no subject
Date: 2007-06-04 11:58 pm (UTC)Да и вообще он вне конкуренции.
Плюсы пдф:
- Быстрая обработка. Распознавать не нужно. Отсканировал страницу - сразу в пдф. Потом одним движением собираем страницы в одну книгу.
- Мало места. ПДФ использует мощный джпег-алгоритм сжатия изображений.
- Мультистраничность.
- Не требует специальной программы, как джву.
- Адоб Акробат(в котором открывается пдф) заточен под чтение документов. Всё для этого сделано.
Джпег или Тифф для этого неудобны.
Распознавать, имхо, только тратить драгоценное время. Это же журнал, а не книга.
Кому понадобится текст - перепечатает.
no subject
Date: 2007-06-05 12:28 am (UTC)В том же "Смехаче" редкие рассказы Ильфа и Петрова Ардова и прочих..
В "Веселых картинках" стихи загадки и прочее
В "Мурзилке" очаровательнейшие рассказы.
В "Пионере" редкие детские повести потом не издававшиеся
В "Вокруг света" статьи достаточно интересные некторые..+ опять же издававшиеся только там редкие книги.
В общем понятно что придется использовать ПДФ но с распознаванием и полной сборкой страницы..(((
no subject
Date: 2007-06-05 09:22 am (UTC)Безумный объём работы. Не стоит того, поверьте. Представьте, сколько времени вы будете сидеть над каждой страницей?
Скан->пдф. Всё.
no subject
Date: 2007-06-05 04:52 am (UTC)да, компрессия там такая зачастую выставлена, что на картинки при увеличении без слёз не взглянешь.
no subject
Date: 2007-06-05 06:11 am (UTC)no subject
Date: 2007-06-05 02:39 pm (UTC)no subject
Date: 2007-06-05 06:11 pm (UTC)no subject
Date: 2007-06-05 04:53 am (UTC)no subject
Date: 2007-06-05 09:22 am (UTC)no subject
Date: 2007-06-05 02:38 pm (UTC)ЗЫ в своё время перечитал весь I'ss, это 1500 сканов как одно, так и двух-страничных, проблем небыло, а вот при чтении почти любого файла в ПДФ - нестерпимое желание прибить создателей адобе ридер, т.к. если нет 39 дюймового монитора и мальчика-покрути-скролл - читать нормально немогу, юзабилити никакое
no subject
Date: 2007-06-05 04:55 am (UTC)no subject
Date: 2007-06-05 05:53 am (UTC)ЗЫ... очень бы хотелось увидеть результат работы :)
no subject
Date: 2007-06-05 08:27 am (UTC)no subject
Date: 2007-06-05 09:57 am (UTC)no subject
Date: 2007-06-05 10:09 am (UTC)no subject
Date: 2007-06-05 11:22 am (UTC)может быть я немного сохраню ваше время и силы, если скажу что Наука и Жизнь сама уже отсканировала часть своих архивов и выпустила диск, всего 100р а сил куча съэкономлена:) они начали с 90-х и обещали двигаться дальше
no subject
Date: 2007-06-05 11:26 am (UTC)Однако я хочу ограничить верхнюю планку 90ми годами. После этого многое есть в электронном формате.
no subject
Date: 2007-06-05 02:03 pm (UTC)no subject
Date: 2007-06-06 06:20 am (UTC)но как-то сильно дороже, чем они на нон-фикшине продавали
или я уже забыла
no subject
Date: 2007-06-05 06:13 pm (UTC)