LibCat » Книги » Компьютеры и интернет » Программирование » Джон Уолш - Создание инструмента научных исследований на основе XML - Проблемы и методология

Джон Уолш - Создание инструмента научных исследований на основе XML - Проблемы и методология

Здесь есть возможность читать онлайн «Джон Уолш - Создание инструмента научных исследований на основе XML - Проблемы и методология» весь текст электронной книги совершенно бесплатно (целиком полную версию без сокращений). В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Жанр: Программирование, Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Читать книгу

Название:
Создание инструмента научных исследований на основе XML: Проблемы и методология
Автор:
Джон Уолш
Жанр:
Программирование / Базы данных / на русском языке
Год:
неизвестен
ISBN:
нет данных
Рейтинг книги:
5 / 5. Голосов: 1
Избранное:

Добавить в избранное
Отзывы:
Написать комментарий
Ваша оценка:
- 100
- 1
- 2
- 3
- 4
- 5

Создание инструмента научных исследований на основе XML: Проблемы и методология: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Создание инструмента научных исследований на основе XML: Проблемы и методология»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

"В своем докладе я опишу процесс создания электронного исследовательского инструмента, имеющего в своей основе печатный библиографический указатель, который предназначен для использования в научных целях, а также проанализирую некоторые трудности, с которыми мы столкнулись в ходе реализации данного проекта, и расскажу об избранных нами вариантах решения возникших проблем."

Создание инструмента научных исследований на основе XML: Проблемы и методология — читать онлайн бесплатно полную книгу (весь текст) целиком

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Создание инструмента научных исследований на основе XML: Проблемы и методология», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

• Файлы, содержащие выпуски Летописи, проходят через первоначальное ручное кодирование, включающее проставление символов элементов div1, div2 и div3 согласно подразделениям предметных заголовков. Необходмые атрибуты id каждого раздела на данном этапе игнорируются.

• Файлы, содержание выпуски Летописи, подвергаются заказчиком обработке программой Java, позволяюцей автоматизировать основной объем работы по кодированию текста. Программа Java, названная LMU от английского выражения “Letopis MarkUp” («Кодирование Летописи»), делает следующее:

1. Производит прекодировочную обработку по корректированию типичных ошибок OCR и форматирует текст с целью увеличения эффективности и надежности процесса кодирования.

2. Проставляет правильные значения id атрибутов (в соответствии с годом выпуска, номером выпуска и положением предметного заголовка в иерархии) во всех элементах div1, div2 и div3.

3. Заключает тысячи библиографических ссылок в символы элементов cit, проставляя автоматически правильные значения атрибутов cit/id.

4. Внутри каждого элемента cit проставляет символ года публикации “year”.

Программа кодирования Летописи, имеющая в своей основе Java, активно использует публичный источник gnu.regexp package ( http://www.cacas.org/~wes/java/) для отражения регулярных выражений.

• Далее файлы, содержащие выпуски Летописи, подвергаются заключительному ручному редактированию и проверке. На данном этапе исправляются ошибки, выявленные в результате проверки на соответствие требованиям XML, и прочие неточности.

3. Проблемы

3.1. Слишком большой объем данных, слишком мало времени

Одной из основных проблем, с которыми мы столкнулись в ходе реализации проекта, является попытка перевода в цифровую форму громадного объема данных. Наша цель, повторюсь, перевод в электронный формат и кодирование выпусков Летописи за период в двадцать лет. Этот объем соответствует 1040 еженедельным выпускам Летописи, с более чем 250000 страниц и более чем тремя миллионами отдельных библиографических ссылок. Создание цифровых изображений страниц с печатных оригиналов и последующая обработка при помощи OCR прошли относительно гладко и безболезненно в первый год работы по гранту (октябрь 1999 — сентябрь 2000). Трудоемкий процесс кодирования и корректирования текста гораздо болезненнее и поглощает много времени.

В основном кодирование и исправление ошибок могут производится с использованием программ, однако даже после этого остается большой объем работы, которая может быть сделана только вручную специально обученными людьми с хорошим знанием русского языка. Наш проект реализуется на базе университета Большой Десятки, имеющего сильную кафедру славянских исследований, много иностранных студентов, так что у нас нет недостатка в русско-говорящих работниках. Мы обучаем персонал производить ручную кодировку и корректирование текста. Будущее покажет, сможем ли мы обработать все двадцать лет Летописи за трехлетний период гранта. Мы итак были вынуждены идти на компромиссы с целью увеличения производительности.

3.1.1. Компромиссы DTD

Один из компромиссов, на которые мы были вынуждены пойти с целью увеличения производительности, было радикальное упрощение DTD, в особенности содержательной модели библиографической ссылки, заключемой в символы элемента cit (ссылка). Первоначально мы планировали использовать несколько других элементов внутри элемента cit. В частности элемент contributor с атрибутами type, обозначающими авторов, редакторов, иллюстраторов и т.д.; элемент title с атрибутами типа, обозначающими название статьи и журнала; элемент enumeration, в который предполагалось заключать год выпуска и номера страниц статьи в журнале; и элемент notes для прочей информации, содержащейся в библиографической ссылке. Ниже приводятся примеры вариантов кодирования одной и той же ссылки «до» и «после» - с использованием первоначального, более сложного варианта DTD, и нового, упрощенного.

«До» - первоначальный вариант DTD:

Жаров, А. [К выпуску изд-вом «Молодая гвардия» сборника «Воспоминания о В. И. Ленине»]. Новый мир, 1955, № 12, с. 232-233.

«После» - используемый в настоящее время, упрощенный вариант DTD:

Жаров, А. Величие и простота. [К выпуску изд-вом «Молодая гвардия» сборника «Воспоминания о В. И. Ленине»]. Новый мир, 1955, № 12, с. 232-233.

К сожалению, из-за непостоянства и бессистемности в расположении составных элементов библиографических ссылок, нам не удалось запрограммировать простановку символов дочерних элементов в рамках символов ссылок в первоначальном варианте DTD. Ручная простановка занимала слишком много времени. Мы были вынуждены убрать почти все дочерние элементы их DTD и остановится на варианте модели ссылки cit, содержащем общие данные и символы года “(#PCDATA| year)*”. Элемент year, обозначающий год , мы не могли упразднить, поскольку он необходим для поиска по году публикации статьи. Один год выпуска Летописи может содержать ссылки на статьи, опубликованные в течение четырех предыдущих лет, так что мы не можем полагаться на год выпуска Летописи для точного задания параметров поиска по дате публикации. Кроме того, мы можем проставить символы элементов года “year” с высокой точностью при помощи разработанного приложения Java, предназначенного для обработки данных и кодирования.

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

Похожие книги на «Создание инструмента научных исследований на основе XML: Проблемы и методология»

Представляем Вашему вниманию похожие книги на «Создание инструмента научных исследований на основе XML: Проблемы и методология» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.

Татьяна Мясникова

История и основы методологии научных исследований в спорте

А. Борисова

Методы научных исследований в туризме

Александр Катков

Научные исследования в психотерапии. Стратегия, методология, практика

Иван Пономаренко

Методология научных исследований. Часть1: Почему нам не обойтись без информации внеземных цивилизаций. Часть 2: Масса, эволюция понятия. Серия: физика высокоразвитой цивилизации. Выпуск № 2

Иван Пономаренко

Почему все теории несостоятельные, Методология научных исследований. Серия: Физика высокоразвитой цивилизации

Андрей Фальков

Жизнь души после смерти тела. Обобщение научных исследований

Дмитрий Овсяницкий

От занятий в Летней научной школе ЛНМО к созданию инженерных проектов и исследований в области математики и биологии. Сборник методических статей

Алексей Глазырин

История становления и развития исследований в области применения системной методологии

Игорь Кузнецов

Основы научных исследований

Андрей Тихомиров

Исследуя мозг. Мозг – объект научных исследований

Евгений Шуремов

Логика и методология научного исследования. Коротко о главном

Г. Ивлева

Методология экономических исследований. Основные подходы и проблемы

Отзывы о книге «Создание инструмента научных исследований на основе XML: Проблемы и методология»

Обсуждение, отзывы о книге «Создание инструмента научных исследований на основе XML: Проблемы и методология» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.