Из личного опыта:
Поработав с несколькими десятками книг, я пришел к выводу, что нумерацию файлов со сканами лучше всего начинать с нуля (например, Scan_000.TIF). Дело в том. что нумерация страниц в книгах обычно идет по схеме: Форзац => Страница 1 (как правило, без номера) => Страница 2 (данные типографии) => Прочие страницы. Если сканировать книгу разворотами, то при нумерации с нуля номер каждого файла будет в точности равен номеру четной страницы, разделенному на 2, то есть:
1. Разворот 1 (Форзац и страница номер 1) — файл с именем Scan_000. TIF;
2. Разворот 2 (страницы 2 и 3) — файл с именем Scan_001. TIF;
3. Разворот 3 (страницы 4 и 5) — файл с именем Scan 002. TIF;
4. Итак далее…
Как правило, сканы именует сама программа сканирования, когда включен ее пакетный режим. Тогда заботиться об именах вообще не нужно. Однако у меня автоматическое именование работает (причем плохо) — только когда включен модуль автоматического листового сканирования ScanJet ADF. Поэтому я стараюсь давать своим файлам вручную простейшие цифровые имена, набивая их на нумпаде (заодно руки отдыхают от постоянного нажатия Ctrl+S).
Облегчить себе работу при сканировании — максимально насущная задача.
Если сканирование каждого отдельного разворота/листа включается клавишами (например теми же Ctrl+S) — нет проблем. Просто не меняя параметров области сканирования — жмете клавиши еще раз, набираете (или не набираете, если повезло с программой) имя очередного файла — и ждете окончания процесса. Если же без нажатия кнопки мыши не обойтись — ставите курсор на кнопку включения сканирования, и по окончании прохода очередной страницы — щелкаете пальцем по мышке, не сдвигая ее. При этом дожидаться, пока головка сканера вернется в исходное положение — никак не обязательно! Это только замедлит работу.
Описанным способом, в зависимости от быстродействия сканера, на один разворот уходит в среднем 18–25 секунд. То есть, при небольшом навыке можно выйти на «производительность ударного труда» порядка 160–200 разворотов (360–400 страниц) в час. Это значит, что в среднем за пару часов вы способны управиться даже с самыми толстыми томами! Немного усидчивости — и вуаля.
Маленькие хитрости
Крайне желательно, чтобы программа сканирования имела обновляемые преcеты установок области и параметров сканирования. Тогда, не закончив вечером работу над очередным томом, можно сохранить установки сканера, а потом — просто загрузить их.
В целом, чем проще будет для вас процесс сканирования — тем лучше. Главное для получения хорошего результата — следовать самым простым описанным правилам — получать выходной файл в формате несжатого TIFF, с разрешением 300dpi. Ну, и, само собой разумеется, в готовых файлах вы сами должны быть способны, не напрягаясь, прочитать текст.
Шаг 2. Пакетная обработка
После сканирования полученные файлы содержат страницы книги, иногда в довольно неприятном виде, вроде такого:
Смещенные и повернутые относительно друг друга страницы, низкий контраст, нечеткости печати во всей красе, затемненная область у корешка и полей — там, где книга неплотно прилегала к стеклу сканера. У такой страницы в неизмененном виде — мало шансов быть распознанной без ошибок, и тем более она не будет иметь никакого «товарного вида» после сжатия и упаковки в DjVu или PDF.
Устранить все дефекты и повысить качество распознавания текста — поможет пакетная обработка.
Салютуем альтруизму разработчиков-добровольцев!
Программа ScanKromsator 5.92(автор — уважаемый камрад bolega) — объективно лучший на данный момент процессор пакетной обработки изображений, специально «заточенный» под книгосканирование. Скачать программу всегда можно здесь: http://www.djvu-soft.narod.m/soft/.
Программа ScanKromsator— мощный инструмент для подготовки книжных сканов. Она автоматически и наилучшим образом выполняет операции разбиения по страницам ( Split ), углового выравнивания ( Deskew ), обрезки переплетов и полей страниц. Однако, потратив несколько минут на расстановку опций и проверку страниц — можно получать всегда отличные легко распознаваемые сканы с минимальными (только не для компьютера) усилиями. Кроме того, программа может сохранять сделанные настройки в виде сведений о заданиях ( Tasks ). Это позволяет при работе с большими книгами не бояться задать неправильные установки после перерыва в работе.
Читать дальше