Энди Спенсер - Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”

Здесь есть возможность читать онлайн «Энди Спенсер - Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”» весь текст электронной книги совершенно бесплатно (целиком полную версию без сокращений). В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Жанр: Программирование, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

  • Название:
    Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”
  • Автор:
  • Жанр:
  • Год:
    неизвестен
  • ISBN:
    нет данных
  • Рейтинг книги:
    4 / 5. Голосов: 1
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 80
    • 1
    • 2
    • 3
    • 4
    • 5

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” — читать онлайн бесплатно полную книгу (весь текст) целиком

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Данная проблема предстает с особой очевидностью при использовании заглавных букв, где в частности (в зависимости от выбора типографских шрифтов) может не быть разницы в визуальном изображении греческой буквы “альфа”, кириллической “А” и латинской “А”. В отношении строчных букв, греческие буквы существенно отличаются по форме по сравнению с латинскими и кириллическими. Значение данной проблемы становится очевидным при принятии во внимание количества похожих символов в латинском, греческом и кириллическом алфавитах, учитывая что все три набора шрифтов имеют общее происхождение. Как и в случае заглавных букв, для строчных возможно более пятидесяти комбинаций ошибок, если в тексте используются все три алфавита. В более упрощенной ситуации, когда в тексте используются только кириллический и латинский шрифты, все же возможно большое количество ошибок. Оценить значение данной проблемы помогает Приложение, в котором представлены несколько примеров.

Наш опыт показывает, что большинство случаев ошибочного принятия символа из одного шрифта за символ другого программным продуктом OCR характерно для относительно изолированных символов, например, инициалов авторов, или изолированных символов римских цифр. Поскольку система OCR, которую мы используем, сопоставляет слова из текста с встроенными словарями, вероятность того, что она вставит букву из другого алфавита в середине слова, правильность которого была подтверждена одним из словарей, достаточно низка. Два фактора повлияли в сторону уменьшения неопределенности распознавания строчных букв при помощи OCR: прописные буквы как правило представлены в составе слов и эти слова сопоставляются со словарями, встроенными в программный продукт OCR; и меньшее количество идентичных (или похожих) строчных букв в указанных трех алфавитах.

К сожалению структура библиографических ссылок, составляющих “Летопись журнальных статей” соответствует стандартной русской библиографической практике, в соответствии с которой практически все имена представлены в формате “фамилия плюс инициалы”. В данной ситуации ошибки OCR наиболее вероятны: одиночные заглавные буквы без контекста, по которому OCR могла бы определить к какому алфавиту принадлежит наиболее похожая буква. То обстоятельство , что за инициалом следует точка, не меняет дела в плане выбора соответствующего алфавита, поскольку часто встречающиеся знаки пунктуации универсальны по всей системе Unicode. Точке (в конце предложения) соответствует символ Unicode U+002E вне зависимости от того, какой текст ее окружает - на русском, греческом или каком-либо другом языке, имеющем в своей основе латинский алфавит. Таким образом, наличие точки не добавляет информации в отношении того, к какому шрифту относится пунктуация.

Еще один распространенный источник ошибок, характерный для всех типов OCR, интерпретация отдельных дефектов и пятен на бумаге как знаков пунктуации или диакритики. Эта проблема особенно актуальна для “Летописи журнальных статей” при использовании греческого алфавита, поскольку внутри греческого алфавита в системе символов Unicode существуют некоторые буквы, представляющие собой производные от основного алфавита буквы с дополнительными tonos (U+0384) или dialytika (U+0308). Наш опыт показывает, что часто плохо пропечатанная или неразборчивая латинская заглавная I (U+0049) распознавалась системой OCR как заглавная греческая “Иота” c диалитикой (U+03AA) или заглавная греческая “Иота” c тонос (U+038A). Таким образом, в дополнение к ошибкам, допускаемым OCR при распознавании визуально идентичных символов, существует проблема производных символов, которая также ведет к снижению точности распознавания. Заглавная иота со связанными производными формами представляет собой большую проблему поскольку латинская заглавная “I” (U+0049), за которую ее чаще всего неправильно принимает OCR, обычно стоит в тексте обособленно, в особенности в составе римских чисел. Другие греческие буквы, имеющие производные формы, в частности “эпсилон” с tonos (U+0388) и “эта” с tonos (U+0389), и латинские и кириллические буквы, за которые их ошибочно принимают, как правило, встречаются внутри слов, так что их проверка по встроенным словарям OCR позволяет устранить большинство подобных ошибок. Тем не менее, эта проблема не сводится только к распознаванию, поскольку производные символы существуют во многих вариантах латинского шрифта, используемого в качестве основы французского, чешского и многих других алфавитов.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”»

Представляем Вашему вниманию похожие книги на «Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Сборник статей - Язык символов
Сборник статей
Отзывы о книге «Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”»

Обсуждение, отзывы о книге «Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x