LibCat » Книги » Компьютеры и интернет » Базы данных » Джон Келлехер - Наука о данных. Базовый курс

Джон Келлехер - Наука о данных. Базовый курс

Здесь есть возможность читать онлайн «Джон Келлехер - Наука о данных. Базовый курс» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2020, ISBN: 2020, Издательство: Альпина Паблишер, Жанр: Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Читать книгу

Название:
Наука о данных. Базовый курс
Автор:
Джон Келлехер
Издательство:
Альпина Паблишер
Жанр:
Базы данных / на русском языке
Год:
2020
Город:
Москва
ISBN:
978-5-9614-3378-4
Рейтинг книги:
3 / 5. Голосов: 1
Избранное:

Добавить в избранное
Отзывы:
Написать комментарий
Ваша оценка:
- 60
- 1
- 2
- 3
- 4
- 5

Наука о данных. Базовый курс: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Наука о данных. Базовый курс»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.

Наука о данных. Базовый курс — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Наука о данных. Базовый курс», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

Другой подход к обнаружению аномалий состоит в обучении модели прогнозирования, такой как дерево решений, для классификации объектов на нормальные и аномальные. Однако для создания такой модели обычно требуется набор обучающих данных, который содержит как аномальные, так и нормальные записи. Кроме того, нескольких экземпляров аномальных записей недостаточно, чтобы обучить модель прогнозирования — набор данных должен содержать определенное количество объектов каждого класса. В идеале он должен быть сбалансирован на выдачу бинарного результата, что подразумевает разделение данных 50:50. Как правило, получение таких обучающих данных для обнаружения аномалий не представляется возможным: по определению аномалии являются редкими событиями, составляющими 1–2 % всех данных или менее. Это ограничение препятствует нормальному использованию моделей прогнозирования. Однако существуют алгоритмы машинного обучения, известные как одноклассные классификаторы, которые предназначены для работы с несбалансированными данными при обнаружении аномалий.

Метод опорных векторов (SVM) является хорошо известным одноклассным классификатором. В общих чертах алгоритм SVM анализирует данные как одну единицу (т. е. один класс) и выявляет основные характеристики и ожидаемое поведение объектов. Затем алгоритм маркирует каждый объект, чтобы указать, насколько он похож или отличен от основных характеристик и ожидаемого поведения. С помощью этой информации выявляют аномалии, требующие дальнейшего расследования. Чем больше объект не похож на остальные, тем выше необходимость его исследования.

Тот факт, что аномалии редки, означает, что их легко можно упустить и трудно идентифицировать. По этой причине специалисты по данным часто комбинируют друг с другом модели для обнаружения аномалий. Идея состоит в том, что разные модели улавливают разные типы аномалий. Как правило, новые модели используют в дополнение к уже известным, выявляющим аномальную активность. Модели интегрируют вместе в единое решение. Это решение позволяет использовать прогнозы каждой модели при формировании окончательного результата прогноза. Например, если транзакция идентифицирована как мошенническая только одной из четырех моделей, то система принятия решений не будет определять ее как случай мошенничества и игнорирует. И наоборот, если три или четыре модели из четырех идентифицируют транзакцию как возможное мошенничество, она будет помечена для обработки аналитиком данных.

Обнаружение аномалий может применяться во многих проблемных областях помимо мошенничества с кредитными картами. Оно используется клиринговыми центрами при мониторинге финансовых транзакций для выявления любых действий, которые требуют дальнейшего расследования, — от потенциально мошеннических до отмывания денег. Обнаружение аномалий применяется при анализе страховых претензий для выявления нетипичных. В кибербезопасности оно используется для обнаружения возможных взломов или нетипичного поведения сотрудников в сети. В области медицины выявление аномалий в историях болезней пациентов может быть полезно для диагностики заболеваний и для изучения методов лечения и их воздействия на организм. Наконец, с распространением датчиков и технологии интернета вещей обнаружение аномалий будет играть важную роль при мониторинге данных и формировании предупреждений, когда происходят нештатные ситуации и требуется вмешательство.

Добавить картофель фри? (Поиск ассоциативных правил)

Одна из стандартных стратегий продаж — перекрестные продажи, т. е. предложение клиентам дополнительных продуктов, которые они могут захотеть приобрести. Идея состоит в том, чтобы увеличить общий чек клиента, заставляя его покупать больше и в то же время улучшая обслуживание за счет напоминания о продуктах, которые тот, возможно, хотел купить, но забыл. Классический пример перекрестных продаж — когда сотрудник ресторана быстрого питания спрашивает клиента, который только что заказал гамбургер: «Добавить картофель фри?» Супермаркетам и предприятиям розничной торговли хорошо известно, что покупатели приобретают товары группами, и они используют эту информацию для настройки перекрестных продаж. Например, клиенты супермаркетов, покупающие хот-доги, часто берут с ними кетчуп и пиво. Используя эту информацию, магазин может планировать расположение продуктов в торговом зале. Разместив хот-доги, кетчупы и пиво рядом друг с другом, магазин помогает клиентам быстрее собрать эту группу товаров, а также увеличивает свои продажи, поскольку клиенты могли забыть о кетчупе и пиве. Понимание этих связей между продуктами является основой перекрестных продаж.