Джон Уолш - Создание инструмента научных исследований на основе XML - Проблемы и методология

Здесь есть возможность читать онлайн «Джон Уолш - Создание инструмента научных исследований на основе XML - Проблемы и методология» весь текст электронной книги совершенно бесплатно (целиком полную версию без сокращений). В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Жанр: Программирование, Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Создание инструмента научных исследований на основе XML: Проблемы и методология: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Создание инструмента научных исследований на основе XML: Проблемы и методология»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

"В своем докладе я опишу процесс создания электронного исследовательского инструмента, имеющего в своей основе печатный библиографический указатель, который предназначен для использования в научных целях, а также проанализирую некоторые трудности, с которыми мы столкнулись в ходе реализации данного проекта, и расскажу об избранных нами вариантах решения возникших проблем."

Создание инструмента научных исследований на основе XML: Проблемы и методология — читать онлайн бесплатно полную книгу (весь текст) целиком

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Создание инструмента научных исследований на основе XML: Проблемы и методология», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Эти компромиссы, конечно же, снижают функциональность базы данных с позиций пользователя. Так например, мы утрачиваем возможность поиска по элементам «автор» и «название статьи». Поиск по фамилиям авторов и названию статьи все же возможен через задание ключевых слов, однако этот поиск не настолько точен и интуитивен как специальный поиск по элементам «автор» и «название». Мы сохранили возможность поиска по ключевым словам по всему тексту указателя и внутри отдельных ссылок. Сузить диапазоны поиска возможно посредством задания временного диапазона и предмета поиска. Таким образом, мы сможем предложить пользователям очень полезный инструмент исследования, который во много раз превосходит по своим потребительским качествам печатный вариант Летописи. Однако в настоящее время силу временных ограничений, продукт не обладает той степенью функциональности, которую мы первоначально планировали придать ему. Конечно, всегда остается возможность того, что мы сможем в будущем осуществить более детальную кодировку внутри символов элементов библиографических ссылок.

3.2. Трудности применения Unicode

Основной объем текста Летописи напечатан на русском языке, с использованием киррилического алфавита. Однако встречаются фрагменты текста на других языках, имеющих в своей основе латинский алфавит. Часто встречаются греческие символы, например, в частности, в математическом разделе. Такое смешение языков и алфавитов привело нас к избранию Unicode как основного стандарта кодирования символов для Летописи.

Следствием данного выбора стала проблема поиска подходящих инструментов XML, поддерживающих Unicode. Несмотря на то, что спецификация XML 1.0 определенно указывает: «Все XML процессоры должны принимать UTF-8 и UTF-16 кодировки [ISO/IEC] 10646» [XML 1.0], мы пришили к выводу, что не все доступные XML инструменты хорошо воспринимают Unicode. Ситуация в этом отношении улучшается, но когда мы начали проект в октябре 1999, она была достаточно неблагоприятной.

3.2.1. Поисковые системы

На протяжении многих лет мы успешно использовали поисковую систему “Pat” (версию 5.x), предлагаемую Open Text Corporation ( http://www.opentext.com/), для индексирования и поиска по нашим обширным коллекциям текстов SGML. Но “Pat” не поддерживает Unicode и другие многобайтовые кодировки символов. Поэтому мы отказались от “Pat” в пользу “XPAT” университета Мичигана ( http://www.dlxs.org/), который основан на “Pat” корпорации Open Text, но модифицирован Мичиганом специально для применения электронными библиотеками. Из названия понятно, что “XPAT” поддерживает XML; тем не менее, несмотря на то, что разработчики “XPAT” работают над обеспечением поддержки Unicode, в настоящее время “XPAT” не в состоянии поддерживать многобайтовые кодировки. Поскольку ни один из продуктов, которые мы использовали для поиска по документам SGML и XML, не поддерживает Unicode, мы были вынуждены потратить много времени на анализ других вариантов.

Некоторые критерии выбора поисковой системы XML включали:

Поддержка платформы Unix (предпочтительно AIX, Solaris или Linux). Поиск по всему тексту. Возможность задания слов для поиска с учетом изменяющегося окончания и поддержка регулярных выражений. Поддержка очень больших XML файлов (сотни мегабайтов). Поддежка Unicode. Java и/или XML API.

У каждого специалиста есть свои предпочтения в отношении выбора поисковых систем и баз данных XML, у каждого продукта свои достоинства и недостатки. Я думаю, справедливым будет замечание, что коммерческие продукты, имующиеся на рынке, в основном не предназначены для применения в научных целях, как, например, проект «Летопись журнальных статей». По большей части коммерческие продукты XML концентрируются на предпринимательских и административных областях применения, так что рынки, где необходимым требованием является поиск по XML документу, содержащему современный английский, древнегреческий, иврит и латынь, достаточно редки.

Перед нами по-прежнему стоит задача найти идеальную поисковую ситему XML, с тем чтобы она позволяла научный поиск и была применима для цифровых библиотек. Для проекта «Летопись журнальных статей» и других проектов Цифровой Библиотечной Программы университета Индианы, которые, как в приведенном выше примере, сочетают в себе фрагменты текста на современном английском, древнегреческом, иврите и латыни, мы в настоящее время разрабатываем XYZFind ( http://www.xyzfind.com/) в качестве нашей основной поисковой системы и базы данных XML. Хотя XYZFind не соответствует некоторым предъявляемым нами требованиям, в частности требованию наличия возможности поиска по словам с учетом изменяющегося окончания, мы в основном удовлетворены его качеством. Разработчики и обслуживающий персонал данного продукта превзошли все ожидания, отвечая на наши запросы и просьбы. Мы надеемся, что все требования, предъявляемые нами, будут учтены к тому времени когда мы вынесем наш проект для общего использования на World Wide Web, что согласно плану должно случиться в следующем году. Нижеследующий параграф из введения к Руководству пользователя XYZFind сервером [XYZFind User’s Guide]дает некоторое представление в отношении функциональности и возможностей XYZFind:

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Создание инструмента научных исследований на основе XML: Проблемы и методология»

Представляем Вашему вниманию похожие книги на «Создание инструмента научных исследований на основе XML: Проблемы и методология» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Создание инструмента научных исследований на основе XML: Проблемы и методология»

Обсуждение, отзывы о книге «Создание инструмента научных исследований на основе XML: Проблемы и методология» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x