ции146, ее сопоставления и фильтрации147. Этот подход чаще всего ис-
145 См.: Terveen L., Hill W. Beyond Recommender Systems: Helping People Help Each Other // Carroll J. (ed.) HCI in Th
e New Millennium. Addison-Wesley, 2001.
146 Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval. Addison-Wesley, 1999; Salton G. Automatic Text Processing. Addison-Wesley, 1989.
147 Belkin N., Croft B. Information Filtering and Information Retrieval // Comm. ACM, Vol. 35, № 12, 1992. P. 29–37.
180
ГЛАВА 2.7. ОБЗОР РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ
пользуют для текстов – документов, веб-сайтов, блогов и т. п. Профиль
предпочтений формируется на основе информации, которую получают
от потребителя либо напрямую, анкетированием, либо косвенно. Кон-
тент обычно описывается при помощи ключевых слов148. Профиль пот-
ребителя, указывающий на его предпочтения, создается путем выяв-
ления ключевых слов в контенте, которому ранее данный человек уже
вынес оценку. Профиль потребителя и профиль контента могут быть
представлены как векторы, а полезность данного контента для данного
потребителя определяется величиной угла между ними149. В частности, человеку, интересующемуся определенной темой, будут рекомендованы
148 Например, система Fab, специализирующаяся на рекомендациях веб-страниц, представляет их контент в виде 100 наиболее важных слов. Система Syskill & Webert описывает документы с помощью 128 самых информативных слов.
Существуют различные методы вычисления «важности» и «информативности»
слов в документах. Например, метод частотности / обратной частотности. Суть
его такова: пусть N – некоторое количество документов, которые могут быть
рекомендованы пользователям. В части этих документов (ni) встречается
ключевое слово kj. Кроме того, предположим, что fij – это количество раз, которое ключевое слово kj встречается в неком конкретном документе dj. Тогда
TFij – частота употребления ключевого слова kj в документе dj – определяется как
где максимум вычисляется из частотности fz,j всех ключевых слов kz, встречаю-
щихся в документе dj. Однако если ключевые слова широко распространены во
многих документах, то система не в состоянии корректно выбрать необходимый
текст. Поэтому измерение обратной частотности слова (IDFi) часто используется
наряду с измерением обычной частотности (Tfij). Обратная частотность для
ключевого слова ki обычно определяется как
Тогда вес ключевого слова ki в документе dj определяется как
а контент документа dj определяется как
(Adomavicius G., Tuzhilin A. Toward the next generation of recommender systems…) 149 Это можно записать так:
Существуют другие контентные методы, такие как байесов классификатор, машинное самообучение, включающие кластеризацию дерева решений, искусст-
венные нейронные сети.
181
ЧАСТЬ 2. УХУДШАЮЩИЙ ОТБОР В ИНДУСТРИЯХ КУЛЬТУРЫ
статьи, в которых использовано много терминов (ключевых слов) из его
пользовательского профиля.
2.7.1.1. Недостатки
Их в контентном методе несколько. Во-первых, машинный анализ го-
дится не для всяких объектов. Так, сильно осложнена работа с мультиме-
дийными приложениями, графикой, аудио- и видеоматериалами. (Хотя в
последнее время в этой области наблюдается бурный прогресс.) Другая
проблема данного метода в том, что два разных предмета, представлен-
ных одинаковыми профилями, неразличимы. В частности, с помощью
контентных систем невозможно отличить хорошую статью от плохой, если их лексикон близок. Это касается и потребительских профилей, по-
этому рекомендации, основанные на выборе якобы схожих людей, могут
быть низкого качества. На деле оказывается, что профили близки, а люди, стоящие за ними, разные. Еще один очевидный недостаток – узость ре-
комендаций. Потребителю не могут рекомендовать товары, отличные от
тех, которые ему уже знакомы. С другой стороны, ему могут настойчиво
предлагать объекты, слишком похожие на те, что ему хорошо известны.
2.7.2. Вспомогательные системы
Эти системы не вычисляют рекомендации. Их смысл в другом: слу-
жить инструментом обмена рекомендациями. Первая в мире рекомен-
дательная система Tapestry, разработанная в Xerox PARC, относилась к
вспомогательному типу150. Популярные ныне веблоги (weblog) – пример
такой системы.
Узкое место вспомогательных систем в том, что они эффективны
только при наличии некоторого числа добровольцев, готовых генериро-
вать информацию, полезную для сообщества151. В большинстве случа-
ев эта работа не оплачивается, хотя усилиями коммерческих поисковых
сервисов она вот-вот превратится в статью дохода152. Пока же рекомен-
Читать дальше