Энди Спенсер - Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”

Здесь есть возможность читать онлайн «Энди Спенсер - Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”» весь текст электронной книги совершенно бесплатно (целиком полную версию без сокращений). В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Жанр: Программирование, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

  • Название:
    Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”
  • Автор:
  • Жанр:
  • Год:
    неизвестен
  • ISBN:
    нет данных
  • Рейтинг книги:
    4 / 5. Голосов: 1
  • Избранное:
    Добавить в избранное
  • Отзывы:
  • Ваша оценка:
    • 80
    • 1
    • 2
    • 3
    • 4
    • 5

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей” — читать онлайн бесплатно полную книгу (весь текст) целиком

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”

Представленный Andy Spencer

5-ая Европейская Конференция Исследования и Продвинутой Технологии для Цифровых Библиотек

Дармштадт, Германия, 4-8 сентября 2001.

Многоязычные информационные ресурсы, состоящие из текстов на нескольких языках, которые трудно отразить одной 8-битовой системой кодирования, в настоящее время могут быть представлены схемой кодирования символов Unicode. Однако использование Unicode может привести к снижению точности системы Оптического Распознавания Символов (Optical Character Recognition) из-за наличия букв в разных алфавитах, изображаемых одинаково, но имеющих различную фонетическую нагрузку. Это ухудшение может существенно увеличить время необходимое для корректировки полученных текстов. Проект перевода в электронную форму двадцати летнего периода публикации “Летопись журнальных статей”, осуществляемый Цифровой библиотекой университета Индианы, представляет собой пример проекта библиотечной оцифровки многошрифтового информационного ресурса для кодировки которого был использован Unicode.

Спецификой данного проекта является использование нескольких шрифтов в рамках одного документа, обусловленное содержанием материалов, представленных в Летописи журнальных статей. Большинство электронно-текстовых документов, созданных в рамках библиотечных проектов оцифровки, содержат тексты, использующие один или два набора шрифтов. Для выполнения подобных задач обычно достаточно восьми-битовых систем кодирования, позволяющих отразить 256 символов. Данное количество возможных символов позволяет отразить заглавные и строчные буквы для более чем одного языка в пределах одной таблицы кодирования. В последние годы были разработаны различные 8-битовые таблицы кодирования для обмена и обработки информации, в диапазоне от основного латинского шрифта до различных комбинаций шрифтов или комбинированных символов. Таким образом одна таблица кодирования, например, может представлять текст на английском и русском языках таким образом, что символы английского языка находятся в нижнем конце цифрового ряда, а кириллические символы в верхнем. Такая восьми-битовая система кодирования приводит к использованию так называемой “ограниченной многоязычной” языковой поддержки [1]. Тем не менее 256 символов явно недостаточно для представления нескольких шрифтов в рамках одного документа.

В каждом номере Летописи журнальных статей регистрируются публикации из различных областей знаний: науки об обществе, гуманитарные и точные науки, медицина, технология и промышленность, и так далее. В то время как основной объем текста “Летописи журнальных статей” использует русскую разновидность кириллического шрифта, во многих секциях точных наук библиографии присутствуют отдельные символы, слова и фразы латинского и греческого алфавита наряду с научными/математическими выражениями и формулами. В латинском шрифте встречающиеся повсюду в Летописи журнальных статей слова и фразы представляют собой комбинацию символов из западно-европейских таблиц кодировки (CP-1252, ISO- 8859-1) и восточноевропейских (CP-1250, ISO-8859-2). Например, ссылка на статью, напечатанную в советском журнале, представляющую собой перевод статьи опубликованной в другой стране, как правило содержит часть сведений относящихся к названию журнала, в котором опубликован оригинал статьи, на национальном языке. Большинство статей были первоначально опубликованы в журналах, издаваемых в странах бывшего СЭВ, однако есть также значительное число публикаций из стран Запада.

В силу многошрифтовой специфики “Летописи журнальных статей” использование обычных кириллических наборов символов таких как CP-1251, KOI-8 или ISO-8859-5 было явно недостаточно. Для полного отражения содержания “Летописи журнальных статей” необходимо применение не только кириллического шрифта, но и основного латинского алфавита с западноевропейскими производными символами, а также восточноевропейских производных символов и греческого шрифта. Так, при избрании к примеру наборов символов Микрософт (таблиц кодирования) необходимо будет одновременно использовать как минимум следующие наборы символов: CP-1251, CP- 1252, CP-1250 и CP-1253. Если же избрать в качестве основы соответствующие наборы символов ISO, необходимо будет использовать символы ISO-8859-5, -1, -2, -7.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”»

Представляем Вашему вниманию похожие книги на «Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Сборник статей - Язык символов
Сборник статей
Отзывы о книге «Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”»

Обсуждение, отзывы о книге «Перевод в электронный формат, кодированные наборы шрифтов и система Оптического Распознавания Символов для многошрифтовых информационных ресурсов на примере “Летописи журнальных статей”» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x