[identity profile] josefinebaker.livejournal.com posting in [community profile] useful_faq
У меня есть довольно большая коллекция книг в PDF, собранная для ридера Sony. Sony приказала долго жить, а новый ридер Pocketbook читает PDF коряво - при масштабировании текст выходит за пределы экрана. Конвертация при помощи Calibre в EPUB ничего хорошего не дала - то же самое при масштабировании. И FB2, и RTF, полученные тем же способом, имеют разрывы строк. Хотелось бы все-таки привести библиотечку к удобочитаемому виду, не прибегая к правке вручную.
Заранее благодарю за советы и идеи.

Date: 2014-02-16 10:47 am (UTC)
From: [identity profile] milatelye.livejournal.com
Flibusta.net

Date: 2014-02-16 10:56 am (UTC)
From: [identity profile] milatelye.livejournal.com
Про тысячи книг - ни слова не сказано.
Конвертить по одной - тоже геморой похуже, чем скачать все заново.
Надо смотреть в сторону пакетного конвертирования, в таком случае.

Date: 2014-02-16 11:05 am (UTC)
From: [identity profile] dr-trans.livejournal.com
Если хотите конкретных ответов, задавайте конкретные вопросы. Дайте образцы книг на посмотреть.
А то это как гинекологический осмотр по телефону. ;)

Date: 2014-02-16 11:14 am (UTC)
From: [identity profile] dr-trans.livejournal.com
На любой файлообменник. Ссылку сюда.

Date: 2014-02-16 11:47 am (UTC)
From: [identity profile] dr-trans.livejournal.com
Там в заголовке как раз написано, что этот PDF-файл сделан из формата FB2.
Т.е. внутри нормально извлекаемый электронный текст.
Надо было качать FB2? а потом уже самостоятельно в Calibre пакетно конвертировать в нужный формат.
Вот ваш файл (https://dl.dropboxusercontent.com/u/7217262/__OUT/Panin.docx).

Конвертируется с помощью SolidDocuments PDF to Word за 1 минуту.
Это хороший конвертер при условии наличия извлекаемого текста (а не сканов).
Он недорогой.
Edited Date: 2014-02-16 11:48 am (UTC)

Date: 2014-02-16 12:03 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
Просто по работе иногда приходится извлекать текст, а потом верстать заново, если у заказчика нет оригинала в формате верстки.

Date: 2014-02-16 12:19 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
Переводчик.

Date: 2014-02-16 01:37 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
А куда деваться? :)
Прежде чем переводить, текст нужно извлечь.

Date: 2014-02-16 12:04 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
Файл книжки удалю через пару минут.

Date: 2014-02-16 11:04 am (UTC)
From: [identity profile] dr-trans.livejournal.com
Пакетное будет плохо. Не факт, что все ПДФы внтутри имеют электронный текст. Могут быть просто сканы. Тогда ой.

Date: 2014-02-16 11:18 am (UTC)
From: [identity profile] dr-trans.livejournal.com
Скачивать надо в редактируемых форматах. Т.е. исходники. А дальше уже можно самому делать PDF и все остальное. А хранить в редактируемых исходниках.

PDF -- это уже производный формат, предназначенный для печати независимо от платформы, т.е. для точного воспроизведения текста без использования софта, в котором выполнялась верстка.
Edited Date: 2014-02-16 11:19 am (UTC)

Date: 2014-02-16 11:40 am (UTC)
From: [identity profile] dr-trans.livejournal.com
Странно. Если книга поддерживает ЮНИКОД (а Сони его поддерживает), то и русский будет читать. Дело не в языке интерфейса.

Date: 2014-02-16 12:07 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
Какого года был ридер? Сони уже лет 5 назад нормально читал русские книги. Т,е. уже тогда была поддержка ЮНИКОДа. У меня Киндлу уже пятый год. В нем ЮНИКОД.

Файлы ПДФ иногда имеют нужный шрифт внутри себя. Я же написал, что это формат для независимой печати. ОН должен идеально печататься на любом компе, где даже нет нужных шрифтов. Это основой замысел формата. Чтобы китаец мог на своем китайском компе распечатать файл на белорусском языке, а белорус -- на корейском. Для этого все необходимое для печати сохраняется внутри файла.
Edited Date: 2014-02-16 12:08 pm (UTC)

Date: 2014-02-16 12:21 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
Ага, точно, поддержка Юникода примерно тогда и появилась.

Date: 2014-02-16 11:24 am (UTC)
From: [identity profile] kondor.livejournal.com
Ну зачем по одной? Скачайте весь архив флибусты. Да и либрусека за одно. На данный момент это всего 800G. (272G+527G)

Date: 2014-02-16 11:29 am (UTC)
From: [identity profile] kondor.livejournal.com
Вот флибуста http : // booktracker.org/viewtopic.php?p=2417%20%20%20librusec%28fb2%29

Вот либрусек http : // booktracker.org/viewtopic.php?p=2417%20%20%20librusec%28fb2%29

А Волга - она всегда в хозяйстве пригодится.

Date: 2014-02-16 12:19 pm (UTC)
From: [identity profile] dr-trans.livejournal.com
Вот эту тему покурите: http://torrent.rus.ec/viewforum.php?f=64

Date: 2014-02-16 11:03 am (UTC)
From: [identity profile] dr-trans.livejournal.com
FineReader

(Формат PDF -- это формат для печати, не предполагающий динамическое масштабирование и пр. чудеса.
Сам формат по определению не предполагает обратные действия по извлечению текста.)
Edited Date: 2014-02-16 11:07 am (UTC)

Date: 2014-02-16 11:16 am (UTC)
From: [identity profile] nokiatunes.livejournal.com
Доработка вручную PDF - гнусный сорт удовольствия. Там даже при замене символов нужно вводить столько же, сколько было удалено, иначе все поедет.
PDF - это электронная бумага, со всеми ограничениями бумаги...
Можно попробовать ABBYY Fine Reader, скормить ему PDF и на выходе получить текст RTF, который конвертируется куда угодно.
Еще у Adobe Acrobat есть режим вытаскивания текста из PDF, как сейчас работает эта хрень, не знаю, раньше на выходе было кривое форматирование и, по сравнению, с ФайнРидером результат был дрянным.

Date: 2014-02-16 11:16 am (UTC)
From: [identity profile] dr-trans.livejournal.com
Нет, если вас не интересует результат. :) Конечно, надо почистить, лучше вручную сегментировать, чтобы лишнее не распознавать. При набитой руке одна книжка страниц на 500 делается за часок-полтора (параллельно можно телик смотреть и пить пиво).

Рентабельность процесса оценивайте путем сравнения времени чтения книги и распознавания. А то бывает, что, пока распознаешь, уже и прочитаешь...

Date: 2014-02-16 11:36 am (UTC)
From: [identity profile] gotva.livejournal.com
вот здесь есть много книг http://booktracker.org/

Date: 2014-02-16 11:55 am (UTC)
From: [identity profile] gotva.livejournal.com
посмотрите ,там есть всё что вам нужно )

Date: 2014-02-16 11:54 am (UTC)
From: [identity profile] prezion.livejournal.com
а читалку другую купить не вариант?!

Date: 2014-02-16 03:14 pm (UTC)
From: [identity profile] chaotic-sys.livejournal.com
У меня тоже Покетбук. Я скачал ваш файл. В режиме "Компоновка/Reflow" всё нормально читается при любом масштабировании.

Date: 2014-02-16 05:22 pm (UTC)
From: [identity profile] chaotic-sys.livejournal.com
Да без проблем : )
Но даже если у вас 360, который не плюс и который не плюс новый - т.е. тот, последнее обновление прошивки которого было выпущено в 2010 году - всё равно в нем есть этот режим отображения. Я специально посмотрел в инструкции с этой страницы: http://www.pocketbook-int.com/ru/support/pocketbook-360