ВНИМАНИЕ
Пользовательский эталон создается на начальном этапе распознавания документа, и в дальнейшем используется для распознавания основного объема текста. Созданный эталон можно сохранить и впоследствии использовать для работы с другими документами. Кроме этого, в программе имеются также встроенные эталоны.
Далее перечислим несколько правил, которые следует учитывать при распознавании текстов с помощью пользовательских эталонов.
• Созданные эталоны впоследствии можно применять для распознавания только тех документов, в которых разрешение, шрифт и его размер совпадают с документом, на основании которого данный эталон был создан. При несоблюдении этого правила результат распознавания может быть непредсказуемым.
• Программа не различает некоторые символы и сопоставляет их с каким-то одним символом. Характерный пример – апострофы: правый (`) и левый (ґ) в программе не идентифицируются и ассоциируются с прямым апострофом ('). Поэтому в распознанном документе никогда не отобразится ни правый, ни левый апостроф: вместо них будет вставлен прямой, причем даже в том случае, когда в процессе обучения эталона были указаны именно они.
• Применять пользовательские эталоны для распознавания имеет смысл лишь тогда, когда документ содержит декоративные или нестандартные символы, либо когда нужно распознать большое количество текста плохого качества. В других случаях это может оказаться нецелесообразно.
• В некоторых случаях Fine Reader делает вывод о сопоставлении изображения тому или иному символу на основании общего анализа текста. В частности, так она может определить, какому символу сопоставить изображение «кружок» – нулю или букве «о», исходя из того, какие символы находятся поблизости (цифры или буквы).
Чтобы войти в режим работы с эталонами, выполните в главном меню команду Сервис→Редактор эталонов либо нажмите комбинацию клавиш Ctrl+Shift+A. В результате на экране откроется окно, изображенное на рис. 4.5.
Рис. 4.5. Редактор эталонов
В данном окне представлен перечень имеющихся в программе эталонов. С помощью кнопки Выбрать осуществляется выбор эталона для распознавания текущего документа, который соответствующим образом помечается в списке.
Чтобы добавить в программу новый эталон, нажмите кнопку Новый. В результате откроется окно, которое показано на рис. 4.6.
Рис. 4.6. Регистрация нового эталона
В данном окне нужно с клавиатуры ввести произвольное имя эталона и нажать кнопку ОК. После этого вновь созданный эталон отобразится в окне редактора (см. рис. 4.5).
С помощью кнопки Редактировать осуществляется переход в режим редактирования эталона. Отметим, что для новых эталонов это не имеет смысла: вначале нужно обучить эталон на основании какого-то документа, и лишь после этого его можно будет как-то изменять.
Если потребуется переименовать какой-то эталон, выделите его в списке щелчком мыши и нажмите кнопку Переименовать, после чего в открывшемся окне (см. рис. 4.6) введите требуемое имя и нажмите ОК.
Для удаления ненужных эталонов используйте кнопку Удалить, после чего подтвердите удаление.
Далее на конкретном примере рассмотрим порядок обучения и применения пользовательских эталонов.
Предположим, что нам нужно распознать сохраненный в формате gif документ, фрагмент которого показан на рис. 4.7.
Рис. 4.7. Фрагмент документа для распознавания
Вначале попробуем распознать его обычным способом – без применения пользовательских эталонов. Для этого выполним команду главного меню Файл→Открыть PDF/изображение (эта команда вызывается также нажатием комбинации клавиш Ctrl+O) и в открывшемся окне укажем путь к требуемому файлу, после чего нажмем кнопку Открыть. Через какое-то время (в зависимости от скорости работы компьютера) отобразится рабочий интерфейс программы. Результат распознавания будет представлен в окне Текст (рис. 4.8).
Рис. 4.8. Результат распознавания документа
Как видно на рисунке, текст документа распознан некорректно: вместо цифры 1 отображается буква г, есть ошибка в слове Фамилия. Кроме этого – программа неуверенно распознала слова имя и отчество (об этом свидетельствует их цветовое выделение).
Чтобы решить проблему, используем механизм распознавания с обучением. Для этого вначале войдем в режим настройки программы, выполнив в главном меню команду Сервис→Опции (эта команда вызывается также нажатием Ctrl+Shift+O). В открывшемся окне перейдем на вкладку Распознать и установим переключатель Обучение в положение Использовать встроенные и пользовательские эталоны. В результате станет доступным флажок Распознавание с обучением, который нужно установить (рис. 4.9).
Читать дальше
Конец ознакомительного отрывка
Купить книгу