LibCat » Книги » Компьютеры и интернет » Базы данных » Джон Келлехер - Наука о данных. Базовый курс

Джон Келлехер - Наука о данных. Базовый курс

Здесь есть возможность читать онлайн «Джон Келлехер - Наука о данных. Базовый курс» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2020, ISBN: 2020, Издательство: Альпина Паблишер, Жанр: Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Читать книгу

Название:
Наука о данных. Базовый курс
Автор:
Джон Келлехер
Издательство:
Альпина Паблишер
Жанр:
Базы данных / на русском языке
Год:
2020
Город:
Москва
ISBN:
978-5-9614-3378-4
Рейтинг книги:
3 / 5. Голосов: 1
Избранное:

Добавить в избранное
Отзывы:
Написать комментарий
Ваша оценка:
- 60
- 1
- 2
- 3
- 4
- 5

Наука о данных. Базовый курс: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Наука о данных. Базовый курс»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.

Наука о данных. Базовый курс — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Наука о данных. Базовый курс», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

Выявление атрибута (необработанного или производного), который имеет высокую корреляцию с целевым атрибутом, полезно, поскольку коррелированный атрибут может дать нам понимание процесса, представленного целевым атрибутом. В нашем случае факт сильной корреляции ИМТ с вероятностью развития диабета указывает на то, что не вес сам по себе способствует заболеванию, а его избыточность. Кроме того, если наблюдается сильная корреляция входного атрибута с целевым, скорее всего, будет нелишним ввести его в модель прогнозирования. Подобно корреляционному анализу, прогнозирование включает в себя анализ отношений между атрибутами. Чтобы иметь возможность сопоставлять значения набора с целевым атрибутом, должна существовать корреляция между ним и входными атрибутами (или некоторой производной функцией от них). Если этой корреляции не существует (или она не найдена алгоритмом), то входные атрибуты не имеют значения при прогнозировании, и лучшее, что может сделать модель, — игнорировать входные данные и всегда прогнозировать центральную тенденцию этой цели [13]в наборе данных. И наоборот, если между входными атрибутами и целью существует сильная корреляция, то весьма вероятно, что алгоритм машинного обучения сможет сгенерировать точную модель прогнозирования.

Линейная регрессия

Когда набор данных состоит из числовых атрибутов, часто используются модели прогнозирования, основанные на регрессии. Регрессионный анализ оценивает ожидаемое (или среднее) значение числового целевого атрибута, когда все входные атрибуты фиксированы. Первый шаг в регрессионном анализе — выдвижение гипотезы о структуре отношений между входными атрибутами и целевым. Затем определяется параметризованная математическая модель предполагаемой взаимосвязи. Эта параметризованная модель называется функцией регрессии. Вы можете представить себе функцию регрессии как машину, которая преобразует входные данные в выходные, а параметры — в виде настроек, управляющих поведением машины. Функция регрессии может иметь несколько параметров, и целью регрессионного анализа является поиск правильных настроек для этих параметров.

С помощью регрессионного анализа можно выдвинуть гипотезу и смоделировать множество различных типов зависимостей между атрибутами. В принципе, единственное ограничение для структуры, которая может быть смоделирована, — это возможность определить соответствующую функцию регрессии. В некоторых областях могут быть веские теоретические причины для использования конкретного типа зависимости, но в иных случаях целесообразно начинать с самого простого типа, а именно с линейной зависимости, и уже затем, если это требуется, моделировать с более сложными. Одна из причин, по которой следует начинать с линейной зависимости, — простота интерпретации функции линейной регрессии. Другая причина — здравый смысл, который состоит в том, чтобы ничего не усложнять без необходимости.

Регрессионный анализ, использующий линейную зависимость, называется линейной регрессией. Простейшим применением линейной регрессии является моделирование взаимосвязи между двумя атрибутами: входным атрибутом X и целевым атрибутом Y . В этой задаче функция регрессии имеет следующий вид:

Y = ω 0 + ω 1X .

Это уравнение линейной функции (часто записываемой как y = mx + c ), которая знакома большинству людей из курса средней школы [14]. Переменные ω 0 и ω 1 и являются параметрами функции регрессии. Изменение этих параметров меняет и то, как функция отображает прямую между входящим X и выходящим Y . Параметр ω 0 (или c из школьной формулы) — это точка пересечения прямой с осью ординат, когда X равен нулю. Параметр ω 1 определяет угол наклона прямой (т. е. он эквивалентен m из школьной формулы).

В регрессионном анализе параметры функции регрессии изначально неизвестны. Установка этих параметров эквивалентна поиску строки, которая наилучшим образом соответствует данным. Стратегия установки этих параметров состоит в том, чтобы начать со случайных значений, а затем итеративно обновлять параметры, уменьшая общее отклонение функции в наборе данных. Общее отклонение рассчитывается в три этапа:

1. Функция применяется к набору данных и для каждого объекта в наборе оценивает значение целевого атрибута.

2. Отклонение функции для каждого объекта вычисляется путем вычитания оценочного значения целевого атрибута из его фактического значения.