Параметры сканирования
Качество распознавания во многом зависит от параметров сканируемого изображения. Качество изображения регулируется установкой основных параметров сканирования: типа изображения, разрешения и яркости. Оптимальным типом в данном случае считается «Серый (256 градаций)», при этом будет осуществлен автоматический подбор яркости. Черно-белый тип обеспечивает более высокую скорость сканирования, но при этом будет утрачена часть информации о буквах, что может привести к ухудшению качества распознавания на документах среднего и низкого качества печати.
Если вам нужно, чтобы цветные элементы сканируемого документа (иллюстрации, цвет букв и фона) были переданы в FineReader точно, необходимо выбрать цветной тип изображения. Разрешение рекомендуется не более 300 dpi для обычных текстов (размер шрифта 10 и более пунктов) и 400—600 dpi для текстов, набранных мелким шрифтом (9 и менее пунктов). Для яркости в большинстве случаев подходит среднее значение — 50%.
ABBYY FineReader 6.0 Sprint
Самый простой продукт распознавания (65 Мбайт) вы не сможете купить отдельно — он поставляется в комплекте со сканерами и многофункциональными устройствами. Ряд пользователей относятся к такому «сопутствующему» софту с легким презрением, полагая «Спринт» недостойным их внимания. Но возможно, на первых порах «Спринт» вполне устроит вас, поскольку удобен и прост в использовании, а распознавание документа происходит с помощью одной кнопки Scan amp;Read.
Предлагается 13 языков установки, в том числе и русский. Учтите, выбирая язык, вы тем самым определяете локализацию интерфейса: в дальнейшем этот параметр изменить невозможно. По умолчанию будут установлены значок ABBYY FineReader в панели инструментов MS Word, а также огромное число языков распознавания, сгруппированных в четыре категории: «Основные» (наиболее употребимые языки), «Дополнительные» (сюда попали, например, албанский, белорусский, фиджи и гагаузский), «Формальные» (языки программирования и простые химические формулы) и «Искусственные» (эсперанто, интерлингва и другие). Нет смысла вводить все языки распознавания, в особенности, если вы не работаете с документами на языке Чаморо или Гуарани — экономия дискового пространства 24 24 Которого никогда не бывает много.
окажется весьма существенной.
Интерфейс программы являет образец аскетизма: две активные кнопки плюс рекламная (рис. 1).
Что сделает пользователь, начинающий знакомство с программой? Очевидно, в силу природного любопытства отправит под крышку сканера текстовый документ и нажмет кнопку «Сканировать». Точно так же поступим и мы, используя в качестве «подопытного кролика» страницу с русским текстом. Однако, каждый сканер имеет свою фирменную утилиту 25 25 В данном случае использовался видавший виды сканер CanoScan N650U.
, где необходимо указать оптимальные параметры сканирования, так как бездумные настройки сканера могут снизить результат распознавания.
Для предварительного просмотра сканируемого документа в утилите моего сканера используется кнопка Preview: после недолгой калибровки девайса в окне появляется исходный документ. Еще раз повторю: нет абсолютно одинаковых интерфейсов, и вам придется самостоятельно отыскать параметры, регулирующие разрешение сканирования и тип документа. В данном случае этим «ведают» опции Output Resolution и Color Mode, где и были заданы оптимальные параметры сканирования. В рассматриваемом примере нет нужды сканировать весь текстовый документ, содержащий поля большого размера, — кроме увеличения времени сканирования мы ничего не получим. При помощи кнопки обрезки выделим нужную область и запустим процесс (кнопка Scan).
По окончании сканирования страница документа отобразится в левой части окна FineReader 6.0 Sprint (рис. 2)
— обратите внимание на слово «Изображение»: действительно, в данный момент наша исходная «бумага» представлена в графической форме, поскольку сканер не способен переводить результат своей работы в другой формат. Этим и будет заниматься программа распознавания. Теперь вспомним о языках распознавания: наш текст написан по-русски, следовательно, выбрать нужно именно русский в меню «Язык». Если будет выбран «не родной» язык, то результат распознавания не сможет расшифровать ни одна разведка мира. Теперь нажмем кнопку «Распознать» и спустя несколько секунд получим текст в правой части программного окна (рис. 3).
Читать дальше