P. 77–87; Middleton S. E., Shadbolt N. R., de Roure D. C. Ontological User Profi ling in Recommender Systems // ACM Trans. Information Systems, Vol. 22, № 1, 2004. P. 54–88; Oard D. W., Kim J. Implicit Feedback for Recommender Systems // Proc. Recommender Systems. Papers from 1998 Workshop, Technical Report WS-98-08, 1998.
187
ЧАСТЬ 2. УХУДШАЮЩИЙ ОТБОР В ИНДУСТРИЯХ КУЛЬТУРЫ
стоит довольно остро. MovieLens, например, первым делом просит но-
вичков проставить оценки двум десяткам фильмов168.
Те же сложности возникают и с новым товаром: его невозможно
рекомендовать до тех пор, пока он не наберет достаточного количества
оценок169.
Есть и еще одна препона – так называемая разреженность оценок.
Спрос на рекомендации обычно превышает наличие оценок в системе.
Люди предпочитают не давать оценки, а получать их, не вкладываться
в формирование базы данных, а пользоваться ею. Отсюда, в частнос-
ти, проблема «первого оценщика» и вообще «холодного старта». Как
побудить человека к этому действию, ведь поначалу взамен он не при-
обретает ничего и может подождать, пока эти хлопоты возьмет на себя
кто-то другой?170 Хотя если судить по высочайшей спонтанной актив-
ности веблоггеров, не стоит переоценивать трудности. И все же так или
иначе критическая масса пользователей необходима. Например, в ре-
комендательных системах по кино часть фильмов оценивается лишь
малым числом зрителей, поэтому эти ленты будут рекомендоваться
редко, даже если им поставили высокие баллы. В общем, если в базе
данных число «экспертов» относительно мало по сравнению с количес-
твом объектов, прогнозы будут неточны. Проблему можно частично
купировать, если включить в профиль пользователя дополнительную
информацию, к примеру, учитывать социально-демографические дан-
ные (это так называемая демографическая фильтрация). Так, рекомен-
дательные системы для ресторанов предлагается пополнять сведения-
ми о возрасте, месте проживания, образовании и работе171.
Часть проблем коллаборативной фильтрации носит сугубо техни-
ческий характер и связана со сложностями вычислений при работе с
большими базами данных. Как указывают разработчики конкурирую-
щих друг с другом систем, «почти все современные алгоритмы колла-
168 Такой запрос требует от пользователя некоторого количества усилий. В то же время
каждая дополнительная оценка увеличивает точность анализа и в этом смысле вы-
годна клиенту. Поэтому перед разработчиками стоит проблема минимизации необ-
ходимого числа оцениваемых единиц, чтобы человек ради получения эффективно-
го результата был готов потратить некоторое время на первоначальные оценки.
169 Good N., Schafer J. B., Konstan J., Borchers A., Sarwar B., Herlocker J., Riedl J. Combining Collaborative Filtering with Personal Agents for Better Recommendations // Proc. of AAAI’99, July 1999.
170 Avery C., Resnick P., Zeckhauser R. Th
e Market for Evaluations // American Economic Review, Vol. 89(3), 1999. P. 564–584.
171 Pazzani M. A Framework for Collaborative, Content-Based, and Demographic Filtering
// Artifi cial Intelligence Review, December 1999. P. 393–408.
188
ГЛАВА 2.7. ОБЗОР РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ
боративной фильтрации были разработаны на небольших базах дан-
ных. Например, MovieLens работает с 35000 клиентов и 3000 товаров, а
EachMovie работает с базой из 4000 пользователей и 1600 товаров»172.
Дорогостоящие вычисления целесообразно выполнять только в офф-
лайне, но традиционная поклиентсткая корпоративная фильтрация в
таком режиме практически не функционирует, а делать все вычисле-
ния в режиме реального времени трудно. Это возможно только если
количество измерений невелико, что уменьшает качество рекоменда-
ций. В противном случае обслуживание рекомендательной системы
оказывается неоправданно затратным.
Еще одна проблема, характерная для коллаборативной фильтра-
ции – это рекомендации чего-то принципиально иного. Многие дей-
ствующие системы дают сбой на этом месте173. Например, если при ра-
боте с Amazon.com. указать, что у вас в библиотеке есть «Макбет» Шек-
спира, то в ответ последует поток «услужливых» подсказок других пьес
Шекспира174. Так же банальны и советы в сфере музыки. В рамках кон-
тентных систем идет поиск товаров, связанных общими характеристи-
ками (того же автора, актера, режиссера) либо имеющих те же ключе-
вые слова. Пообъектная коллаборативная фильтрация тоже базируется
на сходстве товаров. Поэтому клиенту, купившему DVD с фильмом
«Крестный отец», компьютер выдаст список других криминальных
драм, фильмов с Марлоном Брандо и картин, снятых Ф. Копполой. Ре-
комендации часто будут либо слишком общими (все DVD того же жан-
Читать дальше