Создание электронных книг из сканов. DjVu или Pdf из бумажной книги легко и быстро [TWDragon] (fb2) читать постранично, страница - 3


 [Настройки текста]  [Cбросить фильтры]

страницы, разделенному на 2, то есть:

1. Разворот 1 (Форзац и страница номер 1) — файл с именем Scan_000. TIF;

2. Разворот 2 (страницы 2 и 3) — файл с именем Scan_001. TIF;

3. Разворот 3 (страницы 4 и 5) — файл с именем Scan 002. TIF;

4. Итак далее…


Как правило, сканы именует сама программа сканирования, когда включен ее пакетный режим. Тогда заботиться об именах вообще не нужно. Однако у меня автоматическое именование работает (причем плохо) — только когда включен модуль автоматического листового сканирования ScanJet ADF. Поэтому я стараюсь давать своим файлам вручную простейшие цифровые имена, набивая их на нумпаде (заодно руки отдыхают от постоянного нажатия Ctrl+S).

Облегчить себе работу при сканировании — максимально насущная задача.

Если сканирование каждого отдельного разворота/листа включается клавишами (например теми же Ctrl+S) — нет проблем. Просто не меняя параметров области сканирования — жмете клавиши еще раз, набираете (или не набираете, если повезло с программой) имя очередного файла — и ждете окончания процесса. Если же без нажатия кнопки мыши не обойтись — ставите курсор на кнопку включения сканирования, и по окончании прохода очередной страницы — щелкаете пальцем по мышке, не сдвигая ее. При этом дожидаться, пока головка сканера вернется в исходное положение — никак не обязательно! Это только замедлит работу.

Описанным способом, в зависимости от быстродействия сканера, на один разворот уходит в среднем 18–25 секунд. То есть, при небольшом навыке можно выйти на «производительность ударного труда» порядка 160–200 разворотов (360–400 страниц) в час. Это значит, что в среднем за пару часов вы способны управиться даже с самыми толстыми томами! Немного усидчивости — и вуаля.


Маленькие хитрости

Крайне желательно, чтобы программа сканирования имела обновляемые пресеты установок области и параметров сканирования. Тогда, не закончив вечером работу над очередным томом, можно сохранить установки сканера, а потом — просто загрузить их.

В целом, чем проще будет для вас процесс сканирования — тем лучше. Главное для получения хорошего результата — следовать самым простым описанным правилам — получать выходной файл в формате несжатого TIFF, с разрешением 300dpi. Ну, и, само собой разумеется, в готовых файлах вы сами должны быть способны, не напрягаясь, прочитать текст.

Шаг 2. Пакетная обработка

После сканирования полученные файлы содержат страницы книги, иногда в довольно неприятном виде, вроде такого:

Смещенные и повернутые относительно друг друга страницы, низкий контраст, нечеткости печати во всей красе, затемненная область у корешка и полей — там, где книга неплотно прилегала к стеклу сканера. У такой страницы в неизмененном виде — мало шансов быть распознанной без ошибок, и тем более она не будет иметь никакого «товарного вида» после сжатия и упаковки в DjVu или PDF.

Устранить все дефекты и повысить качество распознавания текста — поможет пакетная обработка.

2.1 ScanKromsator V5.92

Салютуем альтруизму разработчиков-добровольцев!

Программа ScanKromsator 5.92 (автор — уважаемый камрад bolega) — объективно лучший на данный момент процессор пакетной обработки изображений, специально «заточенный» под книгосканирование. Скачать программу всегда можно здесь: http://www.djvu-soft.narod.m/soft/.

Программа ScanKromsator — мощный инструмент для подготовки книжных сканов. Она автоматически и наилучшим образом выполняет операции разбиения по страницам (Split), углового выравнивания (Deskew), обрезки переплетов и полей страниц. Однако, потратив несколько минут на расстановку опций и проверку страниц — можно получать всегда отличные легко распознаваемые сканы с минимальными (только не для компьютера) усилиями. Кроме того, программа может сохранять сделанные настройки в виде сведений о заданиях (Tasks). Это позволяет при работе с большими книгами не бояться задать неправильные установки после перерыва в работе.

Первый шаг при работе с Кромсатором — командой File=›Open Images… вызвать диалог открытия файлов с изображениями, и в нем выбрать ранее подготовленные сканы:

В диалоге открытия присутствуют списки, влияющие на открытие многостраничных TIFF-файлов (некоторые программы сканирования позволяют сохранить несколько сканов в один TIFF-файл), и сортировку файлов после сформирования списка. Опцию «Sort Smart» («Умная» сортировка) стоит держать включенной всегда, и не отказываться от сортировки, так как обычная техника выбора файлов в Windows с помощью мыши и клавиши Shift — меняет местами первый и последний выбранные файлы в списке. Для того чтобы выбрать файлы в любом диалоге Windows