Джон Келлехер - Наука о данных. Базовый курс

Здесь есть возможность читать онлайн «Джон Келлехер - Наука о данных. Базовый курс» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2020, ISBN: 2020, Издательство: Альпина Паблишер, Жанр: Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Наука о данных. Базовый курс: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Наука о данных. Базовый курс»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.

Наука о данных. Базовый курс — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Наука о данных. Базовый курс», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Поиск ассоциативных правил — это метод анализа данных при обучении без учителя. Его суть состоит в поиске групп элементов, часто встречающихся вместе. Ассоциативные правила применяются при анализе покупательской корзины , когда розничные компании пытаются выявить наборы товаров, приобретаемых вместе, например хот-дог, кетчуп и пиво. Для такого анализа данных бизнес отслеживает корзину товаров каждого покупателя при каждом посещении магазина. При поиске ассоциативных правил каждая строка в наборе данных описывает содержимое корзины, оплаченной конкретным покупателем в конкретное время. Атрибуты в этом наборе данных — приобретенные товары. На основе данных алгоритм поиска ассоциативных правил ищет товары, которые встречаются в каждой корзине. В отличие от кластеризации и обнаружения аномалий, которые фокусируются на выявлении сходств или различий между объектами (или строками) в наборе данных, поиск ассоциативных правил фокусируется на рассмотрении связей между атрибутами (или столбцами) в наборе данных. В общем смысле этот тип анализа ищет корреляции — т. е. совместные вхождения — между продуктами. Используя поиск ассоциативных правил, компания может изучить поведение своих клиентов, выявляя закономерности в данных. Вот некоторые из вопросов, на которые анализ корзины может дать ответы: «Работает ли маркетинговая кампания?», «Меняются ли закономерности покупок конкретного клиента?», «Когда клиент отмечает главные для себя праздники?», «Влияет ли местоположение конкретного магазина на покупательское поведение?», «На кого мы должны ориентировать наш новый продукт?».

Основным алгоритмом создания ассоциативных правил является алгоритм Apriori, состоящий из двух этапов:

1. Найти все комбинации товаров в наборе транзакций, которые случаются с заданной минимальной частотой. Эти комбинации называются частыми предметными наборами .

2. Рассчитать правила, которые отражают совместное вхождение товаров в частые предметные наборы. Алгоритм Apriori вычисляет вероятность появления элемента в частом предметном наборе с учетом присутствия в нем других предметов.

Алгоритм Apriori генерирует ассоциативные правила, которые выражают вероятностные отношения между элементами в часто встречающихся наборах элементов. Ассоциативное правило имеет форму: ЕСЛИ {предпосылка} — ТО {следствие}. Оно гласит, что предмет или группа предметов (предпосылка) подразумевает наличие с некоторой вероятностью другого предмета в той же корзине (следствие). Например, правило, выведенное из частых предметных наборов, содержащих предметы A, B и C , может утверждать, что если предметы A и B включены в транзакцию, то, вероятно, в нее будет включен и предмет С :

ЕСЛИ {хот-доги, кетчуп} — ТО {пиво}.

Это указывает на то, что клиенты, покупающие хот-доги и кетчуп , также могут купить и пиво . Часто в качестве примера поиска ассоциативных правил приводят историю о том, как неизвестный американский супермаркет в 1980-х гг. одним из первых использовал компьютерную систему для анализа своих данных и выявил неожиданную ассоциацию клиентов, покупающих вместе подгузники и пиво. Теоретическое обоснование этого правила заключалось в том, что семьи с маленькими детьми готовились к уик-энду и знали, что им нужно запастись подгузниками и купить пиво, чтобы дома было что выпить. Магазин разместил эти два товара рядом, и продажи выросли. И хотя история о пиве и подгузниках теперь считается мифом, она остается ярким примером преимуществ ассоциативных правил для предприятий розничной торговли.

Ассоциативные правила имеют два основных статистических показателя: поддержка и достоверность . Процент поддержки ассоциативного правила указывает, как часто элементы встречаются вместе. Поддержка — это отношение транзакций, которые включают в себя элементы (и предпосылки, и следствия) к общему числу транзакций. Процент достоверности ассоциативного правила указывает на вероятность появления предпосылки и следствия в одной и той же транзакции. Достоверность — это условная вероятность, с какой следствие наступает в случае предпосылки. Достоверность рассчитывается как отношение поддержки к количеству транзакций, в которые входит предпосылка. Так, например, показатель достоверности 75 % для ассоциативного правила, касающегося хот-догов, кетчупа и пива, указывает на то, что в 75 % случаев, когда покупатель покупал хот-доги и кетчуп, он также покупал и пиво. Значение поддержки указывает процент корзин в наборе данных, в которых выполняется правило. Например, поддержка 5 % для того же примера будет показывать, что 5 % всех корзин в наборе данных содержали все три элемента правила.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Наука о данных. Базовый курс»

Представляем Вашему вниманию похожие книги на «Наука о данных. Базовый курс» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Наука о данных. Базовый курс»

Обсуждение, отзывы о книге «Наука о данных. Базовый курс» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x