И последнее: мир меняется, а модели — нет. В процессе построения набора данных, обучения модели и ее оценки предполагается, что будущее будет таким же, как и прошлое. Это так называемое предположение о стационарности, которое, по сути, означает, что моделируемые процессы или модели поведения являются постоянными во времени (т. е. не меняются). Наборы данных изначально имеют исторический характер в том смысле, что представляют собой наблюдения, сделанные в прошлом. Поэтому алгоритмы машинного обучения ищут в прошлом закономерности, которые можно обобщить и интерполировать в будущее. Очевидно, что это предположение не всегда работает. Для описания того, как процесс или поведение могут со временем изменяться, специалисты по данным используют понятие дрейфа. По причине дрейфа модели перестают работать и нуждаются в переподготовке, именно поэтому процесс CRISP-DM включает в себя внешний круг, подчеркивающий итеративность науки о данных. Эти процессы должны внедряться после развертывания модели, чтобы проверить ее на устаревание, и, если устаревание имеет место, модель должна пройти переподготовку. Большинство подобных решений не могут быть автоматизированы и требуют человеческой проницательности и знаний. Компьютер ответит на поставленный вопрос, но сам вопрос может оказаться неверным.
‹1›. Le Cun, Yann. 1989. «Generalization and Network Design Strategies.» Technical Report CRGTR-89-4. Univeristy of Toronto Connectionist Research Group.
‹2›. Kelleher, John D. 2016. «Fundamentals of Machine Learning for Neural Machine Translation.» In Proceedings of the European Translation Forum.
‹3›. Quinlan, J. R. 1986. «Induction of Deciston Trees.» Machine Learning 1 (1): 81–106. doi:10.1023/A:1022643204877.
‹4›. Kelleher, John D., Brian Mac Namee, and Aoife D’Arcy. 2015. Fundamentals of Machine Learning for Predictive Data Analytics. MIT Press.
‹5›. Wolpert, D. H., and W. G. Macready. 1997. «No Free Lunch Theorems for Optimization.» IEEE Transactions on Evolutionary Computation 1 (1): 67–82. doi:10.1109/4235.585893.
‹6›. Burt, Andrew. 2017. «Is There a ‘Right to Explanation’ for Machine Learning in the GDPR?» https://iapp.org/news/a/is-there-a-right-to-explanation-for-machine-learning-in-the-gdpr/.
Глава 5. Стандартные задачи науки о данных
Одним из важнейших навыков специалиста по данным является способность сформулировать насущную проблему как стандартную задачу науки о данных. Большинство проектов в этой области можно отнести к одному из четырех основных классов задач:
• кластеризация (или сегментация);
• обнаружение аномалий (или выбросов);
• поиск ассоциативных правил;
• прогнозирование (включая подзадачи классификации и регрессии).
Понимание того, на какую задачу нацелен проект, облегчит принятие многих проектных решений. Например, для обучения модели прогнозирования требуется, чтобы каждый из объектов в наборе данных содержал значение целевого атрибута, а это, в свою очередь, дает ориентиры (через запросы) с точки зрения проектирования набора данных. Понимание задачи также определяет, какие алгоритмы машинного обучения использовать. Существует множество алгоритмов машинного обучения, и каждый предназначен для конкретной задачи глубинного анализа данных. Например, алгоритмы, генерирующие модели дерева решений, в первую очередь предназначены для решения задач прогнозирования. Каждой задаче соответствует множество алгоритмов машинного обучения, поэтому знание задачи определяет не конкретный алгоритм, а их набор. Поскольку задача влияет как на структуру набора данных, так и на выбор алгоритмов машинного обучения, определиться с ее типом необходимо на раннем этапе жизненного цикла проекта, в идеале — на этапе понимания бизнес-целей CRISP-DM. Чтобы лучше понять типы задач, ниже мы покажем, как некоторые стандартные проблемы бизнеса соотносятся с ними.
Кто наши клиенты? (Кластеризация)
Распространенная область применения науки о данных в бизнесе — поддержка маркетинговых кампаний и продаж. Разработка целевой маркетинговой кампании требует понимания целевого клиента. Круг клиентов большинства предприятий довольно широк, в нем присутствуют потребители с разными предпочтениями и запросами, поэтому подход «один размер для всех», скорее всего, окажется провальным. Правильнее будет определить количество клиентских профилей, каждый из которых описывает значительный сегмент клиентской базы, а затем разработать целевые маркетинговые кампании для каждого. Эти профили могут быть созданы вручную с привлечением опыта в предметной сфере, но, как правило, наилучшим решением будет создать их на основе данных, которые бизнес накопил о своих клиентах. Интуиция зачастую может пропустить важные неочевидные моменты или не обеспечить требуемый для тонкой маркетинговой настройки уровень детализации. Например, Браун сообщает, что в одном проекте науки о данных известный стереотип о маме футболиста (домохозяйке из пригорода, которая много времени посвящает тому, чтобы возить детей на футбольные тренировки) не нашел соответствия в клиентской базе. Однако при использовании процесса кластеризации, основанного на данных, были выявлены более сфокусированные профили, такие как матери, работающие полный рабочий день вне дома с маленькими детьми в детском саду, или матери старшеклассников, которые работают неполный рабочий день, или женщины без детей, которые заинтересованы в здоровом питании . Эти клиентские профили определяют более четкие цели для маркетинговых кампаний и могут выявить неизвестные сегменты в базе клиентов.
Читать дальше
Конец ознакомительного отрывка
Купить книгу