Совершенно иначе обстоит дело с поиском документов по их содержанию. Информация, содержащаяся в научных документах, объективно подчиняется закону рассеяния. Это значит, что в одном случае в ответ на запрос ИПС может выдать несколько профильных публикаций, точно отвечающих на него, не выдав релевантную информацию, рассеянную среди большого количества других источников, в другом — может выдать и релевантную информацию. Полнота поиска возрастет. Однако в этом случае будет иметь место больший поисковый шум. Исходя из этого можно сделать вывод о принципиальной невозможности одновременного достижения стопроцентной полноты и такой же точности при поиске научных документов. Увеличивая полноту поиска, мы неизбежно уменьшаем его точность и наоборот, увеличивая точность поиска, уменьшаем его полноту.
Точному переводу содержания документа на ИПЯ — индексированию — препятствует субъективное восприятие содержания выполняющим перевод. В результате одни и те же документы могут быть проиндексированы по-разному. Неточность описания содержания документов при помощи любого ИПЯ не может не сказаться при их поиске.
Отсюда следует, что для документальных ИПС не может быть разработан ИПЯ, который обеспечивал бы стопроцентную полноту и точность выдачи документов. Однако это не значит, что не следует стремиться к максимально точной передаче содержания документов при переводе их на ИПЯ. Именно от этого во многом зависит качество работы всей ИПС. Поэтому при разработке автоматизированных ИПС большое внимание необходимо уделять выбору ИПЯ.
В настоящее время разработано большое количество информационно-поисковых языков, различных по назначению и принципам построения. Существуют, например, информационно-поисковые языки, основанные на различных классификациях, так называемые ИПЯ классификационного типа. Работа ИПС с таким ИПЯ схематично может быть представлена следующим образом.
Каталог крупной библиотеки, организованный, например, по УДК, записывается на машинный носитель информации. Запросы, поступающие от потребителей информации, также индексируются по УДК. Машина выполняет процесс сравнения ПОЗа и ПОДа, выраженных на одном и том же ИПЯ — УДК. При совпадении индексов документов с индексом запроса машина выдает ответ на запрос. Если необходимо увеличить полноту выдачи документов, то мы можем потребовать не полного, а частичного совпадения индексов УДК ПОДов и ПОЗов, изменяя таким образом критерий смыслового соответствия. Таким путем мы можем управлять процессом поиска, добиваясь нужных его характеристик.
Информационно-поисковые языки классификационного типа широко используются в автоматизированных ИПС промышленного назначения, применяемых, например, при поиске аналогов проектируемых деталей с целью заимствования технологического процесса для их обработки. Однако применение ИПЯ, основанных на той или иной классификации, в автоматизированных документальных ИПС ограничивается тем, что введение новых сложных многоаспектных понятий требует бесконечного расширения классификации, что, конечно, невозможно.
Поэтому в последнее время в автоматизированных ИПС предпочтение отдается так называемым ИПЯ дескрипторного типа. Дескрипторы — это термины естественного языка, выражающие определенные понятия. Словарь дескрипторов с указанными между ними смысловыми отношениями, охватывающий определенную область знания, называется информационно-поисковым тезаурусом (ИПТ). Идея применения ИПТ для информационного поиска документов состоит в описании содержания документов и запросов с помощью дескрипторов, входящих в его состав. На практике эта идея реализуется следующим образом. Текст документа, вводимого в ИПС, уменьшается до объема реферата, в котором выделяются слова, несущие основную смысловую нагрузку, так называемые ключевые слова. При помощи ключевых слов достаточно точно передается содержание документа. После этого каждое слово заменяется близким ему по смыслу дескриптором информационно-поискового тезауруса.
Совокупность терминов тезауруса-дескрипторов, заменивших ключевые слова, образует поисковый образ документа. Точно так же на язык дескрипторов переводится и запрос. Поиск документов после этого уже можно поручить машине. ЭВМ с присущей ей быстротой просматривает массивы ПОДов и сравнивает их с ПОЗом. Цель такого сравнения — выявить дескрипторы, принадлежащие одновременно ПОДу и ПОЗу, т. е. найти пересечение множеств дескрипторов ПОДа и ПОЗа. Чем больше зона пересечения, тем точнее соответствие документа запросу. Минимальная величина зоны пересечения оговаривается принятым критерием смыслового соответствия. Изменяя его, можно варьировать точность и полноту поиска в зависимости от нужд потребителей информации.
Читать дальше