Таковы принципы работы ИПС с ИПЯ дескрипторного типа. Качество их работы во многом зависит от совершенства применяемого информационно-поискового тезауруса. Поэтому требования к ИПТ очень высоки. В нем не должно быть, например, терминов, выражающих одно и то же понятие, т. е. синонимов — это привело бы к потерям информации при поиске. Кроме этого, должны быть зафиксированы некоторые отношения между терминами (род — вид, часть — целое и другие), служащие целям повышения точности и полноты поиска.
Обычно информационно-поисковые тезаурусы оформляются в виде книг. Лексику тезаурусов составляют не только дескрипторы, но и их синонимы, которые не являются дескрипторами. Присутствие в тезаурусе синонимов имеет большое значение. Поясним это на примере.
Пусть имеется два термина: «Абразивы порошкообразные» и «Порошки абразивные». Ясно, что они выражают одно и то же понятие. Но одно понятие не может быть представлено в тезаурусе двумя различными терминами! Это значило бы, что при поиске документов на запрос, содержащий термин «Абразивы порошкообразные», поисковая система не выдала бы документы, содержащие в поисковом образе термин «Порошки абразивные», хотя они подлежат выдаче, так как соответствуют запросу.
Использование синонимичных терминов приводит к потерям информации. Чтобы предотвратить это, из двух (в данном случае) синонимов в качестве дескриптора выбирают один — термин «Абразивы порошкообразные», — а другой снабжают отсылкой к первому (пометкой): см. «Порошки абразивные». Такая пометка означает, что вместо одного термина при составлении поисковых образов документов или запросов следует использовать другой, являющийся дескриптором. Именно так ликвидируется в тезаурусах синонимия.
Если из нескольких синонимов один выбран в качестве дескриптора, то остальные (в нашем случае это термин «Порошки абразивные») при этом получают название ключевых слов. Наличие в тезаурусе ключевых слов с отсылками к соответствующим дескрипторам облегчает индексирование документов, обеспечивает быстрый поиск нужного термина, способствует повышению качества функционирования ИПС.
Тезаурус является необходимым лингвистическим пособием любой механизированной или автоматизированной информационно-поисковой системы, использующей ИПЯ дескрипторного типа.
Первые тезаурусы, удовлетворяющие специфическим задачам информационного поиска, были разработаны в начале 60-х годов нашего века.
В соответствии с тематическим профилем различают многоотраслевые, отраслевые и узкотематические тезаурусы. Наиболее известны из информационно-поисковых тезаурусов следующие:
тезаурус АСТИА (Агентство службы технической информации США) — 1-е издание в декабре 1962 г.;тезаурус технических и научных терминов, наиболее крупный из существующих тезаурусов (23364 слова, из которых 17810 слов выступают в качестве дескрипторов). Этот труд, вышедший в свет в декабре 1967 г., представляет собой совместное издание Документального центра Министерства обороны США и Объединенного совета инженеров; тезаурус научно-технических терминов под общей редакцией Ю.И. Шемакина (М., Воениздат, 1972 г.). Этот тезаурус, включающий 19000 терминов, из которых 15000 являются дескрипторами, может служить примером отечественного многоотраслевого тезауруса.
К многоотраслевым тезаурусам можно отнести также тезаурусы международных информационных служб по атомной энергии. Тезаурус Евратома, изданный в 1966 и 1967 гг. и Тезаурус Международного агентства по атомной энергии в Вене («ИНИС»-Тезаурус), 6-е издание которого вышло в свет в 1974 г.
Примерами тезаурусов отраслевого масштаба могут служить: словарь дескрипторов по химии и химической промышленности, изданный НИИТЭХИМ в 1973 г. (1033 дескриптора, 5373 ключевых слова), тезаурус дескрипторов по образованию, используемый в автоматизированной системе Информационного центра в области народного образования США (1967 г.).
Даже этот небольшой перечень может дать представление о том, насколько велика роль информационно-поисковых тезаурусов в поиске информации. В настоящее время во всем мире ведется интенсивная работа по построению ИПТ различного назначения.
Для соединения «слов» тезаурусов в «фразы» применяются грамматические средства ИПЯ — правила составления поисковых образов с помощью дескрипторов ИПТ. Грамматики, применяемые в ИПЯ, бывают самыми различными. Одни регламентируют порядок дескрипторов в ПОДах и ПОЗах, другие — приписывают каждому дескриптору числа, характеризующие их значимость для поискового образа, третьи — указывают на роль каждого дескриптора при помощи специальных указателей и т. д. Применение грамматических средств в некоторых случаях позволяет более точно передавать содержание документов и тем самым улучшать поисковые характеры ИПС.
Читать дальше