При сканировании следует использовать как можно более качественный оригинал. В этом случае экономится время на последующей доводке электронного изображения до хорошего уровня.
При сканировании газетной статьи лучше подкладывать под нее лист черной бумаги, чтобы текст, напечатанный на обратной стороне газеты, меньше проступал.
OCR, или Машинопись без машинистки
Компьютер научился «видеть» еще до появления веб-камер. Речь опять идет о сканере – устройстве преобразования графической информации в машинный вид. В результате сканирования изображения (как уже упоминалось, это процесс проведения лазерным лучом по поверхности изображения, когда оно точка за точкой переводится в цифровой вид), в памяти компьютера создается так называемая битовая карта – совокупность точек, более или менее точно соответствующая исходному изображению. Такую электронную картинку можно вставлять в документы, редактировать, менять и распечатывать. Распечатка будет более или менее измененной ксерокопией исходного рисунка. Если в качестве оригинала использован текст, то при распечатке отсканированной страницы получится просто ее ксерокопия. Так, кстати, и работает большинство офисных многофункциональных аппаратов. При небольшом объеме ксерокопирования в офисе компьютер со сканером и принтером вполне заменят ксерокс.
Самые проницательные офисные работники, изучив возможности сканера, сразу подумали, можно ли таким образом постранично вводить тексты в компьютер без набора их вручную. К сожалению, этого сделать нельзя. Сканер действительно передает в компьютер изображение страницы текста, но это битовая карта – картинка, работать с которой как с текстом, то есть с набором букв и символов, невозможно. Кстати, объем файла битовой карты раз в 30–40, а то и в 100 раз превышает размер адекватного по содержанию текстового файла. Получить текст из картинки можно, для этого существуют программы OCR (Optical Character Recognition – оптическое распознавание символов).
Выбор без мук
Долгое время программы распознавания работали не слишком аккуратно, допускалось большое количество ошибок, качество распознавания сильно зависело от качества сканирования. В результате, помучившись с настройками, проще было заново набрать текст вручную. Однако пытливый ум компьютерщиков, опираясь на серьезные научные изыскания, смог предложить практичный программный инструмент, основанный на принципе фонтанного преобразования (от англ. font – шрифт). В отличие от большинства других компьютерных приложений, программы распознавания не так разнообразны, в нашей стране известно всего два брэнда – Finereader от фирмы ABBYY, и CuneiForm – от Cognitive Technologies. Обе фирмы – российские, и программы работают с русским языком.
Конкурируя между собой, оба приложения год от года совершенствуются. FineReader (дословный перевод с английского – прекрасный чтец) больше известна как автономный продукт, который продается (а в наших условиях чаще просто заимствуется) отдельно, в то время как CuneiForm часто поставляется в комплекте со сканерами. Поскольку принцип работы обеих программ идентичен, далее не будет уточняться, о какой именно программе идет речь.
Учимся работать
Как бы совершенна ни была программа, это не человек, и в работе с ней должны быть соблюдены некоторые условности. Системы распознавания обычно имеют автоматический режим «сканируй и распознавай» (англ. scan&read). Однако для качественной работы лучше настроить программу на конкретный вид текста и качество бумаги вручную, особенно если предстоит работать с большим объемом однотипной исходной информации. Рассмотрим основные этапы работы программы.
Сканирование текста.Важно, чтобы изображение было отсканировано с хорошим разрешением (300 dpi) в режиме черно-белой графики. Как правило, эти установки срабатывают по умолчанию, если сканирование ведется из самой программы распознавания; если нет, то их нужно установить вручную.
Текст должен сканироваться построчно, то есть страницу нужно положить на стекло сканера без перекоса. Это важно, так как распознавание ведется также построчно, а если изображение перекошено, то некоторые символы из одной строки программа может распознать как принадлежащие другой (особенно если встречаются буквы с надстрочными или подстрочными знаками, например «й» или «ё»).
Сегментирование.Большинство текстов имеет разнообразные элементы оформления – картинки, таблицы и т. д. либо разбито на колонки или сегменты. Для удобства их обработки в программе распознавания существует операция сегментирования. Она разбивает всю страницу на блоки, нумерует их, и распознанный текст впоследствии располагается именно в порядке расположения этих сегментов. Сегменты с картинками после сегментации можно исключить, если они не нужны, что намного повысит эффективность работы.
Читать дальше
Конец ознакомительного отрывка
Купить книгу