Другой подход к обнаружению аномалий состоит в обучении модели прогнозирования, такой как дерево решений, для классификации объектов на нормальные и аномальные. Однако для создания такой модели обычно требуется набор обучающих данных, который содержит как аномальные, так и нормальные записи. Кроме того, нескольких экземпляров аномальных записей недостаточно, чтобы обучить модель прогнозирования — набор данных должен содержать определенное количество объектов каждого класса. В идеале он должен быть сбалансирован на выдачу бинарного результата, что подразумевает разделение данных 50:50. Как правило, получение таких обучающих данных для обнаружения аномалий не представляется возможным: по определению аномалии являются редкими событиями, составляющими 1–2 % всех данных или менее. Это ограничение препятствует нормальному использованию моделей прогнозирования. Однако существуют алгоритмы машинного обучения, известные как одноклассные классификаторы, которые предназначены для работы с несбалансированными данными при обнаружении аномалий.
Метод опорных векторов (SVM) является хорошо известным одноклассным классификатором. В общих чертах алгоритм SVM анализирует данные как одну единицу (т. е. один класс) и выявляет основные характеристики и ожидаемое поведение объектов. Затем алгоритм маркирует каждый объект, чтобы указать, насколько он похож или отличен от основных характеристик и ожидаемого поведения. С помощью этой информации выявляют аномалии, требующие дальнейшего расследования. Чем больше объект не похож на остальные, тем выше необходимость его исследования.
Тот факт, что аномалии редки, означает, что их легко можно упустить и трудно идентифицировать. По этой причине специалисты по данным часто комбинируют друг с другом модели для обнаружения аномалий. Идея состоит в том, что разные модели улавливают разные типы аномалий. Как правило, новые модели используют в дополнение к уже известным, выявляющим аномальную активность. Модели интегрируют вместе в единое решение. Это решение позволяет использовать прогнозы каждой модели при формировании окончательного результата прогноза. Например, если транзакция идентифицирована как мошенническая только одной из четырех моделей, то система принятия решений не будет определять ее как случай мошенничества и игнорирует. И наоборот, если три или четыре модели из четырех идентифицируют транзакцию как возможное мошенничество, она будет помечена для обработки аналитиком данных.
Обнаружение аномалий может применяться во многих проблемных областях помимо мошенничества с кредитными картами. Оно используется клиринговыми центрами при мониторинге финансовых транзакций для выявления любых действий, которые требуют дальнейшего расследования, — от потенциально мошеннических до отмывания денег. Обнаружение аномалий применяется при анализе страховых претензий для выявления нетипичных. В кибербезопасности оно используется для обнаружения возможных взломов или нетипичного поведения сотрудников в сети. В области медицины выявление аномалий в историях болезней пациентов может быть полезно для диагностики заболеваний и для изучения методов лечения и их воздействия на организм. Наконец, с распространением датчиков и технологии интернета вещей обнаружение аномалий будет играть важную роль при мониторинге данных и формировании предупреждений, когда происходят нештатные ситуации и требуется вмешательство.
Добавить картофель фри? (Поиск ассоциативных правил)
Одна из стандартных стратегий продаж — перекрестные продажи, т. е. предложение клиентам дополнительных продуктов, которые они могут захотеть приобрести. Идея состоит в том, чтобы увеличить общий чек клиента, заставляя его покупать больше и в то же время улучшая обслуживание за счет напоминания о продуктах, которые тот, возможно, хотел купить, но забыл. Классический пример перекрестных продаж — когда сотрудник ресторана быстрого питания спрашивает клиента, который только что заказал гамбургер: «Добавить картофель фри?» Супермаркетам и предприятиям розничной торговли хорошо известно, что покупатели приобретают товары группами, и они используют эту информацию для настройки перекрестных продаж. Например, клиенты супермаркетов, покупающие хот-доги, часто берут с ними кетчуп и пиво. Используя эту информацию, магазин может планировать расположение продуктов в торговом зале. Разместив хот-доги, кетчупы и пиво рядом друг с другом, магазин помогает клиентам быстрее собрать эту группу товаров, а также увеличивает свои продажи, поскольку клиенты могли забыть о кетчупе и пиве. Понимание этих связей между продуктами является основой перекрестных продаж.
Читать дальше
Конец ознакомительного отрывка
Купить книгу