LibCat » Книги » Компьютеры и интернет » Базы данных » Джон Келлехер - Наука о данных. Базовый курс

Джон Келлехер - Наука о данных. Базовый курс

Здесь есть возможность читать онлайн «Джон Келлехер - Наука о данных. Базовый курс» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2020, ISBN: 2020, Издательство: Альпина Паблишер, Жанр: Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Читать книгу

Название:
Наука о данных. Базовый курс
Автор:
Джон Келлехер
Издательство:
Альпина Паблишер
Жанр:
Базы данных / на русском языке
Год:
2020
Город:
Москва
ISBN:
978-5-9614-3378-4
Рейтинг книги:
3 / 5. Голосов: 1
Избранное:

Добавить в избранное
Отзывы:
Написать комментарий
Ваша оценка:
- 60
- 1
- 2
- 3
- 4
- 5

Наука о данных. Базовый курс: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Наука о данных. Базовый курс»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.

Наука о данных. Базовый курс — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Наука о данных. Базовый курс», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

После того как форма аналитической записи разработана, необходимо извлечь и объединить эти записи в набор данных для анализа. Когда записи созданы и сохранены, например, в базе данных, мы получаем то, что и называют базовой аналитической таблицей — набор данных, которые используются в качестве входных для алгоритмов машинного обучения. Следующая глава познакомит вас с областью машинного обучения и некоторыми из самых распространенных алгоритмов, используемых в науке о данных.

Глава 4. Основы машинного обучения

Наука о данных — это партнерство между специалистом по данным и компьютером. В главе 2 мы описали жизненный цикл процесса CRISP-DM, которому следует специалист по данным. CRISP-DM определяет последовательность принимаемых им решений и действия, которые помогут их воплотить. Основные задачи специалиста по данным в цикле CRISP-DM сводятся к тому, чтобы определить проблему, спроектировать набор данных, подготовить их, принять решение о том, какой тип анализа будет использован, а затем оценить и интерпретировать результаты. Вклад компьютера в этом партнерстве заключается в его способности обрабатывать данные и искать закономерности. Машинное обучение — это область исследований, которая разрабатывает алгоритмы для выявления компьютером закономерностей в данных. Алгоритмы и методы машинного обучения в основном применяются на этапе моделирования в CRISP-DM. Процесс машинного обучения представляет собой два последовательных этапа.

На первом алгоритм машинного обучения применяется к набору данных для выявления в нем закономерностей. Сами закономерности могут быть представлены разными способами. Позже в этой главе мы опишем наиболее популярные из них: деревья решений, регрессионные модели и нейронные сети. Эти представления закономерностей известны как модели, поэтому и сам этап жизненного цикла CRISP-DM называется этапом моделирования. Проще говоря, все алгоритмы машинного обучения создают модели из данных, но каждый из них разработан для создания моделей, использующих определенный тип представления.

На втором этапе, когда модель создана, она применяется для анализа. В ряде случаев решающее значение имеет структура модели, которая показывает, какие именно атрибуты являются важными для конкретной области определения. Например, мы могли бы применить алгоритм машинного обучения к набору данных пациентов, уже перенесших инсульт, а затем использовать такую структуру модели, которая распознавала бы факторы, тесно связанные с инсультом. Существуют модели для маркировки или классификации новых объектов. К примеру, основная цель модели спам-фильтра состоит в том, чтобы маркировать входящие электронные письма, а не выявлять атрибуты спам-сообщений.

Обучение с учителем и без

Большинство алгоритмов машинного обучения можно отнести либо к обучению с учителем, либо к обучению без учителя. Цель обучения с учителем состоит в том, чтобы научить алгоритм сопоставлять разные значения разных атрибутов объекта со значением заданного атрибута этого же объекта, известного как целевой атрибут. Например, когда обучение с учителем применяется для спам-фильтра, алгоритм пытается изучить функцию, которая сопоставляет атрибуты, описывающие электронную почту, со значением (спам / не спам) целевого атрибута; функция, которую изучает алгоритм, является моделью спам-фильтра. В этом контексте искомая алгоритмом закономерность является функцией, которая сопоставляет значения входных атрибутов со значением целевого атрибута, а модель, которую возвращает алгоритм, является компьютерной программой, выполняющей эту функцию. По сути, обучение с учителем осуществляется путем поиска одной из множества функций, которая наилучшим образом отображает связь между входными и выходными данными. Однако для любого набора данных разумной сложности существует так много комбинаций входных данных и их возможных сопоставлений с выходными данными, что алгоритм не может испробовать их все. Поэтому каждый алгоритм машинного обучения предпочитает определенные типы функций во время поиска. Эти предпочтения известны как смещение обучения алгоритма. Реальная проблема в использовании машинного обучения состоит в том, чтобы найти алгоритм, смещение обучения которого лучше всего подходит для конкретного набора данных. Как правило, для того, чтобы выяснить, какой из алгоритмов лучше всего работает с конкретным набором данных, требуются эксперименты.