Джон Келлехер - Наука о данных. Базовый курс

Здесь есть возможность читать онлайн «Джон Келлехер - Наука о данных. Базовый курс» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2020, ISBN: 2020, Издательство: Альпина Паблишер, Жанр: Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Наука о данных. Базовый курс: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Наука о данных. Базовый курс»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.

Наука о данных. Базовый курс — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Наука о данных. Базовый курс», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Помимо энергетики и транспорта, наука о данных используется в коммунальном хозяйстве и для долгосрочного планирования инфраструктурных проектов. Эффективность предоставляемых коммунальных услуг контролируется путем мониторинга их текущего, прогнозирования ожидаемого и изучения предыдущего потребления при аналогичных условиях. Коммунальные службы используют науку о данных по-разному. Например, для управления сетью коммунального снабжения, включая контроль поставок для коммунальных предприятий, их качества, оценку возникающих проблем, выявление областей, требующих более интенсивного снабжения, автоматическое изменение маршрутов доставки и мониторинг любых аномалий в сети. Другой пример использования науки о данных коммунальными службами — мониторинг клиентов. Отклонения параметров потребления могут указывать на криминальную активность (например, наличие домашней плантации конопли), на нелегальную перенастройку измерительного оборудования, а также на клиентов, которые с большой вероятностью не будут платить по счетам. Науку о данных применяют и в городском планировании для поиска оптимального варианта застройки и сопутствующих ей услуг. Симуляции, основанные на моделях прогнозирования прироста населения, позволяют планировщикам оценить, когда и где понадобятся те или иные услуги, например общеобразовательные школы.

Проектные принципы науки о данных: почему одни проекты успешны, а другие нет

Порой проекты науки о данных терпят неудачу, поскольку не оправдывают ожиданий, увязают в технических или политических вопросах, не приносят полезных результатов и, как правило, после этого больше не запускаются. Подобно утверждению о счастливых семьях Льва Толстого [34], успех проекта науки о данных зависит от ряда факторов. Успешные проекты требуют целенаправленности, хорошего качества данных, нужных людей, готовности экспериментировать с несколькими моделями, интеграции в архитектуру и процессы ИТ-бизнеса, поддержки со стороны высшего руководства и признания организацией необходимости регулярного пересмотра моделей в силу меняющегося мира. Сбой в любом из этих аспектов может привести к провалу всего проекта. Далее мы подробно опишем общие факторы, влияющие на успешность проектов науки о данных, а также типичные причины, которые приводят к их провалу.

Фокусировка.Каждый успешный проект науки о данных начинается с четкого определения проблемы, которую он должен помочь решить. Этот шаг подсказывает обычный здравый смысл — проекту сложно достичь успеха, если у него нет четкой цели. Наличие четкой цели определяет решения относительно того, какие данные и алгоритмы машинного обучения использовать, как оценивать результаты, как будут применяться анализ и развертываться модели и когда может потребоваться повторный процесс для обновления моделей.

Данные.Точно сформулированная задача позволяет определить, какие данные необходимы для проекта. Ясность в этом вопросе помогает направить проект туда, где эти данные находятся. Если какие-то данные в настоящее время недоступны, следует запустить вспомогательные проекты, которые изучат возможность сбора и доступность этих данных. При этом крайне важно обеспечить их высокое качество. Потеря качества данных может произойти в силу плохо спроектированных приложений или плохих моделей, имеющихся у организации, персонала, не обученного правильно вводить данные, или по иным причинам. На самом деле существует масса факторов, которые снижают качество данных в системах, а потребность в данных хорошего качества настолько важна, что некоторые организации нанимают специалистов, которые постоянно проверяют данные, оценивая их качество и внося предложения о его улучшении. Без качественных данных добиться успеха трудно.

Прежде чем привлекать сторонние источники данных стоит проверить какие данные - фото 38

Прежде чем привлекать сторонние источники данных, стоит проверить, какие данные уже собраны и используются в организации. К сожалению, подход некоторых наукоемких проектов заключается в том, чтобы сразу взять доступные данные из транзакционных баз или других источников, очистить и интегрировать их, а затем приступить к исследованию и анализу. Такой подход полностью игнорирует группу бизнес-аналитики и возможное наличие хранилища данных. Во многих организациях бизнес-аналитики и специалисты по организации хранилища данных уже собирают, очищают, трансформируют и интегрируют данные организации в один центральный репозиторий. Если хранилище уже существует, то, вероятно, оно содержит все или бо́льшую часть данных, необходимых для проекта, что может сэкономить значительное время на их интеграцию и очистку. Кроме того, в хранилище будет гораздо больше данных, чем в текущих транзакционных базах. Используя хранилище данных, можно вернуться на несколько лет назад и построить прогнозные модели, а затем прокрутить их на разных временных периодах и измерить уровень точности прогнозов для каждой из моделей. Это позволяет отслеживать изменения в данных и их влияние на модели. Кроме того, можно отслеживать, как эти изменения происходят и развиваются с течением времени. Использование такого подхода облегчает демонстрацию поведения моделей в долгосрочном периоде, что помогает укрепить доверие клиентов. Например, в одном проекте на основе пятилетних исторических данных из хранилища было продемонстрировано, как именно компания могла сэкономить более $40 млн за этот период.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Наука о данных. Базовый курс»

Представляем Вашему вниманию похожие книги на «Наука о данных. Базовый курс» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Наука о данных. Базовый курс»

Обсуждение, отзывы о книге «Наука о данных. Базовый курс» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x