Джон Келлехер - Наука о данных. Базовый курс

Здесь есть возможность читать онлайн «Джон Келлехер - Наука о данных. Базовый курс» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2020, ISBN: 2020, Издательство: Альпина Паблишер, Жанр: Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Наука о данных. Базовый курс: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Наука о данных. Базовый курс»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.

Наука о данных. Базовый курс — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Наука о данных. Базовый курс», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Термин «отток клиентов» применяется для описания группы потребителей, которые покидают один сервис и присоединяются к другому. Соответственно, проблема выявления клиентов, которые могут уйти в ближайшем будущем, называется прогнозированием оттока . Как следует из названия, эта задача прогнозирования и состоит в том, чтобы классифицировать клиента, подпадает он под риск оттока или нет. Многие компании в телекоммуникационной, коммунальной, банковской, страховой и других отраслях используют этот вид анализа для прогнозирования оттока клиентов. Еще одна растущая сфера применения — прогнозирование текучести кадров или оттока персонала, т. е. того, какие сотрудники, скорее всего, покинут компанию в течение определенного периода времени.

Когда модель прогнозирования возвращает метку или категорию для входных данных, она называется моделью классификации. Обучение модели классификации требует исторических данных, где для каждого объекта указано, произошло целевое событие в его случае или нет. Процесс обучения модели классификации обычно описывают таким высказыванием:

«Мы учимся на прошлом, чтобы предсказывать будущее».

Классификация — это метод машинного обучения с учителем, в ходе которого берется набор данных с помеченными экземплярами и строится модель классификации с использованием одного или нескольких алгоритмов. Помеченный набор данных называется обучающим. Он состоит из объектов, целевой результат которых уже известен. Например, для анализа оттока клиентов требуется набор данных (по одной строке на каждого), в котором клиентам будут присвоены метки, указывающие на возможность смены ими поставщика услуг. Такой набор данных будет включать в себя целевой атрибут, который перечисляет эту метку для каждого клиента. В одних случаях назначить метку оттока для записи клиента несложно. Например, клиент сам связался с компанией и недвусмысленно отменил свою подписку или контракт. В других случаях вероятность оттока может быть неявной. К примеру, не все абоненты имеют ежемесячный контракт с оператором мобильной связи. Некоторые предпочитают договор предоплаты, который позволяет пополнять счет не регулярно, а только по необходимости. Определить, собирается ли клиент с таким типом контракта прекратить пользование услугами, бывает непросто, поскольку неясно, что считать признаком: отсутствие звонков в течение двух недель, нулевой баланс, прекращение активности на три недели или что-то еще. После того как факт оттока был установлен с точки зрения бизнеса, необходимо реализовать это определение в коде, чтобы назначить целевую метку клиенту в наборе данных.

Другим фактором, усложняющим прогнозирование оттока, является необходимость учета временных задержек. Цель прогнозирования оттока состоит в том, чтобы смоделировать склонность (или вероятность) клиента к уходу в определенный момент в будущем. Следовательно, этот тип модели имеет временное измерение, которое необходимо учитывать при создании набора данных. Атрибуты в наборе данных для модели склонности взяты из двух разных периодов времени — периода наблюдения и итогового периода. Период наблюдения — это период времени, на основе которого рассчитываются значения входных атрибутов. Итоговый период — период, на основе которого рассчитывается целевой атрибут. Цель создания модели оттока клиентов состоит в том, чтобы дать возможность бизнесу провести вмешательство до события оттока, чтобы побудить клиента остаться. Это означает, что прогноз относительно оттока клиентов должен быть сделан до того, как клиент фактически покинет сервис. Продолжительность периода, необходимого для попытки удержания клиента, равна продолжительности итогового периода, и прогноз, который возвращает модель оттока, по факту состоит в том, расстанется ли клиент с компанией в течение этого итогового периода. Например, модель может быть обучена предсказывать, что клиент уйдет в течение одного или двух месяцев, в зависимости от скорости предпринятых бизнесом мер по его удержанию.

Определение итогового периода влияет на то, какие данные следует использовать в качестве входных для модели. Если модель предназначена для прогнозирования оттока клиентов в ближайшие два месяца начиная с сегодняшнего дня, то при ее обучении нельзя использовать данные клиентов, описывающие их активность за последние два месяца. Таким образом, при построении набора обучающих данных входные атрибуты для каждого потерянного клиента должны рассчитываться только с использованием данных, полученных не позднее, чем за два месяца до того, как он отказался от услуг. Точно так же входные атрибуты, описывающие активных в настоящий момент клиентов, должны рассчитываться на основе данных, полученных не ранее двух месяцев назад. Это гарантирует, что все объекты набора данных, включая как ушедших, так и активных клиентов, позволяют сделать прогноз на ближайшие два месяца.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Наука о данных. Базовый курс»

Представляем Вашему вниманию похожие книги на «Наука о данных. Базовый курс» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Наука о данных. Базовый курс»

Обсуждение, отзывы о книге «Наука о данных. Базовый курс» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x