Поиск ассоциативных правил — это метод анализа данных при обучении без учителя. Его суть состоит в поиске групп элементов, часто встречающихся вместе. Ассоциативные правила применяются при анализе покупательской корзины , когда розничные компании пытаются выявить наборы товаров, приобретаемых вместе, например хот-дог, кетчуп и пиво. Для такого анализа данных бизнес отслеживает корзину товаров каждого покупателя при каждом посещении магазина. При поиске ассоциативных правил каждая строка в наборе данных описывает содержимое корзины, оплаченной конкретным покупателем в конкретное время. Атрибуты в этом наборе данных — приобретенные товары. На основе данных алгоритм поиска ассоциативных правил ищет товары, которые встречаются в каждой корзине. В отличие от кластеризации и обнаружения аномалий, которые фокусируются на выявлении сходств или различий между объектами (или строками) в наборе данных, поиск ассоциативных правил фокусируется на рассмотрении связей между атрибутами (или столбцами) в наборе данных. В общем смысле этот тип анализа ищет корреляции — т. е. совместные вхождения — между продуктами. Используя поиск ассоциативных правил, компания может изучить поведение своих клиентов, выявляя закономерности в данных. Вот некоторые из вопросов, на которые анализ корзины может дать ответы: «Работает ли маркетинговая кампания?», «Меняются ли закономерности покупок конкретного клиента?», «Когда клиент отмечает главные для себя праздники?», «Влияет ли местоположение конкретного магазина на покупательское поведение?», «На кого мы должны ориентировать наш новый продукт?».
Основным алгоритмом создания ассоциативных правил является алгоритм Apriori, состоящий из двух этапов:
1. Найти все комбинации товаров в наборе транзакций, которые случаются с заданной минимальной частотой. Эти комбинации называются частыми предметными наборами .
2. Рассчитать правила, которые отражают совместное вхождение товаров в частые предметные наборы. Алгоритм Apriori вычисляет вероятность появления элемента в частом предметном наборе с учетом присутствия в нем других предметов.
Алгоритм Apriori генерирует ассоциативные правила, которые выражают вероятностные отношения между элементами в часто встречающихся наборах элементов. Ассоциативное правило имеет форму: ЕСЛИ {предпосылка} — ТО {следствие}. Оно гласит, что предмет или группа предметов (предпосылка) подразумевает наличие с некоторой вероятностью другого предмета в той же корзине (следствие). Например, правило, выведенное из частых предметных наборов, содержащих предметы A, B и C , может утверждать, что если предметы A и B включены в транзакцию, то, вероятно, в нее будет включен и предмет С :
ЕСЛИ {хот-доги, кетчуп} — ТО {пиво}.
Это указывает на то, что клиенты, покупающие хот-доги и кетчуп , также могут купить и пиво . Часто в качестве примера поиска ассоциативных правил приводят историю о том, как неизвестный американский супермаркет в 1980-х гг. одним из первых использовал компьютерную систему для анализа своих данных и выявил неожиданную ассоциацию клиентов, покупающих вместе подгузники и пиво. Теоретическое обоснование этого правила заключалось в том, что семьи с маленькими детьми готовились к уик-энду и знали, что им нужно запастись подгузниками и купить пиво, чтобы дома было что выпить. Магазин разместил эти два товара рядом, и продажи выросли. И хотя история о пиве и подгузниках теперь считается мифом, она остается ярким примером преимуществ ассоциативных правил для предприятий розничной торговли.
Ассоциативные правила имеют два основных статистических показателя: поддержка и достоверность . Процент поддержки ассоциативного правила указывает, как часто элементы встречаются вместе. Поддержка — это отношение транзакций, которые включают в себя элементы (и предпосылки, и следствия) к общему числу транзакций. Процент достоверности ассоциативного правила указывает на вероятность появления предпосылки и следствия в одной и той же транзакции. Достоверность — это условная вероятность, с какой следствие наступает в случае предпосылки. Достоверность рассчитывается как отношение поддержки к количеству транзакций, в которые входит предпосылка. Так, например, показатель достоверности 75 % для ассоциативного правила, касающегося хот-догов, кетчупа и пива, указывает на то, что в 75 % случаев, когда покупатель покупал хот-доги и кетчуп, он также покупал и пиво. Значение поддержки указывает процент корзин в наборе данных, в которых выполняется правило. Например, поддержка 5 % для того же примера будет показывать, что 5 % всех корзин в наборе данных содержали все три элемента правила.
Читать дальше
Конец ознакомительного отрывка
Купить книгу