LibCat » Книги » Компьютеры и интернет » Базы данных » Джон Келлехер - Наука о данных. Базовый курс

Джон Келлехер - Наука о данных. Базовый курс

Здесь есть возможность читать онлайн «Джон Келлехер - Наука о данных. Базовый курс» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2020, ISBN: 2020, Издательство: Альпина Паблишер, Жанр: Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Читать книгу

Название:
Наука о данных. Базовый курс
Автор:
Джон Келлехер
Издательство:
Альпина Паблишер
Жанр:
Базы данных / на русском языке
Год:
2020
Город:
Москва
ISBN:
978-5-9614-3378-4
Рейтинг книги:
3 / 5. Голосов: 1
Избранное:

Добавить в избранное
Отзывы:
Написать комментарий
Ваша оценка:
- 60
- 1
- 2
- 3
- 4
- 5

Наука о данных. Базовый курс: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Наука о данных. Базовый курс»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.

Наука о данных. Базовый курс — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Наука о данных. Базовый курс», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

Часто когда кластеры в наборе находят полезными им присваивают имена - фото 34

Часто, когда кластеры в наборе находят полезными, им присваивают имена, отражающие основные характеристики профилей. Каждый кластерный центр определяет отдельный профиль клиента с описанием, сгенерированным из значений атрибутов назначенных ему объектов. В алгоритме k-средних нет обязательного условия, что все кластеры должны быть одного размера. Размеры кластеров могут дать полезную информацию для управления маркетингом. Например, процесс кластеризации может выявить небольшие целевые кластеры клиентов, которые отсутствуют в текущих маркетинговых кампаниях. Другая стратегия может заключаться в том, чтобы сосредоточиться на кластерах с клиентами, приносящими наибольший доход. Стратегии могут быть разными, но при любой из них понимание сегментов клиентской базы является предпосылкой успеха маркетинга.

Одним из преимуществ кластеризации как аналитического подхода является то, что она может применяться к большинству типов данных. Благодаря своей универсальности кластеризация часто используется как инструмент исследования данных на этапе их понимания во многих проектах науки о данных. Кроме того, хотя в нашем примере кластеризация применяется для разбиения клиентов на группы, она также бывает полезна и для других задач. Например, для анализа учебных курсов с целью выявления групп студентов, которые нуждаются в дополнительной поддержке или предпочитают разные методы обучения; для идентификации групп похожих документов в корпусе текстов; в биоинформатике для анализа последовательностей генов в процессе, называемом микрочиповым анализом.

Мошенничество ли это? (Обнаружение аномалий)

Обнаружение аномалий (или анализ выбросов) включает в себя поиск и выявление объектов, которые не соответствуют типичным данным в наборе. Эти несоответствующие объекты часто называют аномалиями или выбросами. Обнаружение аномалий используется в том числе при анализе финансовых транзакций с целью выявления потенциальных мошеннических действий и запуска расследований. Например, оно позволяет определить мошеннические действия по кредитным картам путем выявления транзакций, происходящих в необычном месте или на необычно большую сумму по сравнению с другими транзакциями по этой кредитной карте.

Первый подход, который большинство компаний использует для обнаружения аномалий, состоит в том, чтобы вручную определить ряд правил, основанных на экспертных знаниях в конкретной области, которые помогают идентифицировать аномальные события. Часто набор этих правил описывают на SQL или на других языках и запускают в базах или хранилищах данных. Некоторые языки программирования уже включают специальные команды для облегчения кодирования этих типов правил. Например, версии SQL для базы данных теперь включают функцию MATCH_RECOGNIZE, упрощающую обнаружение закономерности в данных. Распространенная схема мошенничества с кредитными картами заключается в том, что вор проверяет, работает ли украденная карта, совершая по ней небольшую покупку, а затем, если транзакция проходит, как можно быстрее покупает что-нибудь дорогое, прежде чем карта будет аннулирована. Функция MATCH_RECOGNIZE в SQL позволяет программистам баз данных писать сценарии, которые выявляют последовательности транзакций по кредитной карте, соответствующие этой закономерности, и либо автоматически блокируют карту, либо предупреждают компанию-эмитента. Со временем, когда накапливается опыт выявления более сложных аномалий (например, благодаря клиентам, которые сообщают о мошенничестве), набор идентифицирующих правил расширяется, чтобы включить обработку этих новых объектов.

Основным недостатком подхода, основанного на правилах, является то, что он может идентифицировать аномальные события только после того, как они произошли и попали в поле внимания организации. В идеале большинство организаций хотели бы иметь возможность выявлять аномалии, когда они происходят впервые или если они произошли, но остались незафиксированными в отчетах. В некотором смысле обнаружение аномалий является противоположностью кластеризации: цель кластеризации состоит в том, чтобы найти группы схожих элементов, тогда как цель обнаружения аномалий — поиск элементов, непохожих на остальную часть набора данных. Такая интуитивная кластеризация может быть использована для автоматической идентификации аномалий, при этом существует два метода. Первый группирует нормальные данные вместе, а аномальные помещает в отдельные кластеры. Эти кластеры содержат небольшое число объектов по сравнению с основной частью записей. Второй метод заключается в измерении расстояния между объектом и центром кластера. Чем дальше объект находится от центра кластера, тем выше вероятность того, что он окажется аномальным и требует расследования.