Джон Келлехер - Наука о данных. Базовый курс

Здесь есть возможность читать онлайн «Джон Келлехер - Наука о данных. Базовый курс» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2020, ISBN: 2020, Издательство: Альпина Паблишер, Жанр: Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Наука о данных. Базовый курс: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Наука о данных. Базовый курс»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.

Наука о данных. Базовый курс — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Наука о данных. Базовый курс», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать
Стандартный наукоемкий подход к этому типу анализа состоит в том чтобы - фото 33

Стандартный наукоемкий подход к этому типу анализа состоит в том, чтобы сформулировать проблему как задачу кластеризации . Кластеризация включает в себя сортировку объектов в наборе данных на подгруппы по принципу схожести. Кластеризация обычно проводится аналитиком, который вводит произвольное значение количества подгрупп, после чего алгоритм создает их путем объединения объектов на основе сходства значений их атрибутов. Затем эксперт в данной области определения просматривает полученные кластеры, чтобы понять, являются ли они значимыми. В контексте разработки маркетинговой кампании такой обзор нужен, чтобы проверить, насколько адекватно клиентские профили отражают действительность, или выявить новые профили, которые ранее не рассматривались.

Диапазон атрибутов, которые можно использовать для описания клиентов в процессе кластеризации, огромен, но есть наиболее типичные: демографическая информация (возраст, пол и т. д.), место жительства (почтовый индекс, адрес и т. д.), транзакционная информация, например какие продукты или услуги приобретал клиент, доход, который компания получает от него, как долго он является клиентом, участвует ли в программах лояльности, возвращал ли когда-нибудь продукт или жаловался на услугу и проч. Как и во всех проектах науки о данных, в кластеризации одна из самых больших проблем — определить, какие атрибуты должны быть включены, а какие исключены, чтобы добиться наилучших результатов. Принятие решения о выборе атрибутов основано на итерациях экспериментов, их анализе специалистом и пересмотре результатов каждого проекта.

Наиболее известным алгоритмом машинного обучения для кластеризации является метод k-средних . Буква k в названии указывает количество кластеров, которые алгоритм ищет в данных. Значение k задается заранее и часто устанавливается экспериментальным путем, методом проб и ошибок. Алгоритм k-средних предполагает, что все атрибуты, описывающие клиентов в наборе данных, являются числовыми. Если набор данных содержит нечисловые атрибуты, то они должны быть соотнесены с числовыми значениями для использования метода k - средних , иначе потребуется другой алгоритм. Данный алгоритм рассматривает каждого клиента как точку в облаке точек (или в диаграмме рассеяния), где позиция клиента определяется значениями атрибутов в его профиле. Цель алгоритма — найти положение центра каждого кластера в облаке точек. Задавая количество k кластеров, мы задаем и количество кластерных центров (или средних), отсюда и название алгоритма.

Алгоритм работает, выполняя двухэтапный процесс: сначала каждый объект назначают ближайшему к нему кластерному центру, а затем обновляют этот центр таким образом, чтобы он оказался в середине назначенных ему объектов. Процесс начинается с выбора k объектов, которые будут действовать в качестве начальных кластерных центров. В настоящее время для выбора начальных кластерных центров оптимальным является так называемый алгоритм k-средних ++. Логическое обоснование его использования состоит в максимально возможном распределении исходных кластерных центров. Первый центр устанавливается путем выбора случайного объекта в наборе данных. Второй, третий (и последующие) центры кластеров — путем выбора объектов с вероятностью, пропорциональной квадрату расстояния от ближайшего существующего кластерного центра. Как только все k кластерных центров инициализированы, происходит первая итерация назначения объектов ближайшему центру. После этого центры перемещаются так, чтобы совпасть с центром назначенных им объектов. Перемещение кластерных центров сместит их ближе к одним объектам и отодвинет от других, в том числе и от объектов, им назначенных. Затем объекты переназначаются снова ближайшему обновленному кластерному центру. Некоторые объекты останутся назначенными одному и тому же центру, другие могут быть переназначены новому. Этот процесс назначения объектов и обновления центра продолжается до тех пор, пока при очередной итерации никакие объекты не будут переназначены новому кластерному центру. Алгоритм k-средних недетерминирован, т. е. разные начальные позиции кластерных центров, вероятно, будут давать и разные кластеры. В результате алгоритм обычно запускается несколько раз, а затем результаты этих прогонов сравниваются, чтобы увидеть, какие кластеры выглядят наиболее адекватными с учетом предметной области и ее понимания специалистом по данным.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Наука о данных. Базовый курс»

Представляем Вашему вниманию похожие книги на «Наука о данных. Базовый курс» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Наука о данных. Базовый курс»

Обсуждение, отзывы о книге «Наука о данных. Базовый курс» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x