Проблемы, связанные с данным проектом, многочисленны и сложны. Первая трудность заключалась в выборе метода сканирования, поскольку бумага, на которой напечатан текст Летописи, хрупкая и пожелтевшая. После нескольких проб было принято решение сканировать материал в двухтональном режиме, а не с 12-битовой серой шкалой изображения, что облегчило сканирование и сократило объем памяти, необходимой для сохранения файлов. В соответствии с этими параметрами мы разослали предложение подать заявки на участие в проекте на этапе сканирования семи компаниям. Очень скоро мы поняли, что необходимо поддерживать высокоинтенсивный режим работы, поскольку проект предполагает обработку приблизительно 250000 страниц обесцвеченного текста, напечатанного мелким шрифтом. Другая трудность состояла в обучении нанятых студентов без нарушения нормального режима их работы. Их работа требует большой тщательности и состоит во внимательном прочтении электронного изображения страниц текста, соответствие которых оригиналу после сканирования должно составлять 99,8 %, проверке соблюдения правил пунктуации, последовательности номеров ссылок, правильности дат выпуска периодических изданий и т. д. Компьютерная программа OCR (Оптического распознавания символов), рассчитанная на кириллицу, не справляется с такими специфическими проблемами как правильное прочтение математических символов, ссылок в разделах о флоре и фауне, насыщенных латинскими названиями. В числе прочих проблем следует упомянуть разгадывание многочисленных сокращений, используемых в библиографических ссылках, а также отличение слов с дефисом от случаев переноса части слова на следующую строку. Все упомянутые сложные случаи должны редактироваться вручную. Значительное количество ошибок при использовании OCR связано с низкой степенью точности распознавания этим программным продуктом случаев употребления греческих и кириллических букв.
Много времени ушло на принятие решения, какие элементы текста должны подвергнуться кодированию. После пяти итераций, рабочая группа решила создать DTD (Определение типа документа) из 14 элементов. Однако, после подсчетов стало ясно, что при такой степени детализации кодировки необходимо будет закодировать 30000000 различных элементов текста. Первоначально предполагалось, что XML-модуль Word Perfect Office 2000 Suite успешно справиться с этой задачей, однако в ходе работы г-н Спенсер пришел к необходимости перехода на новую версию XMetaL.
Следующей серьезной проблемой стал выбор поисковой системы, которая обладала бы чертами универсальности, в частности, позволяла бы производить поиск по латинским и кириллическим текстам. На сегодняшний день выбор пал на Tamino Software A-G, созданную немецкой компанией, имеющей дочернюю компанию в США.
Г-н Спенсер и технические исполнители проекта озабочены проблемой обеспечения доступности материалов Летописи в будущем, поскольку мировые компьютерные технологии динамично развиваются. Им удалось заключить соглашение с UITS (Отдел информационно-технических услуг университета Индианы) на поддержание базы данных Летописи в рабочем состоянии и перевод ее в новые компьютерные системы по мере всеобщего к ним перехода. Таким образом, мы надеемся обеспечить сохранность этой массивной библиографической базы данных в долгосрочном периоде.
В настоящее время мы рассматриваем возможность сохранения информации на CD-R дисках. Использования этого носителя информации повлияет на выбор поисковой системы, поскольку она должна успешно функционировать как на CD-R дисках, так и в режиме on-line, при загрузке с домашней страницы в Интернете.
Осуществление данного проекта в трехгодичный срок представляется почти невозможным. Однако, мы уже далеко продвинулись вперед. Мы надеемся, что преодоление проблем, с которыми мы столкнулись в ходе реализации проекта, и которые мы успешно решаем, облегчит путь тем, кто продолжит после нас работу над этой идеей, улучшая доступ пользователей всего мира к другим частям этой национальной библиографии, а также к национальным библиографиям стран Содружества Независимых Государств.
Цитата:
Croucher, Murlin. Digitizing and Making a Web Site for the Soviet Letopis' Zhurnal'nykh Statei, 1956–1975. Libraries in Open Societies: Proceedings of the Fifth International Slavic Librarians' Conference (July 2000).
Перевод:
Переведенный с Английского языка Natalia Rome-Lindval