Джон Келлехер - Наука о данных. Базовый курс

Здесь есть возможность читать онлайн «Джон Келлехер - Наука о данных. Базовый курс» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2020, ISBN: 2020, Издательство: Альпина Паблишер, Жанр: Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Наука о данных. Базовый курс: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Наука о данных. Базовый курс»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.

Наука о данных. Базовый курс — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Наука о данных. Базовый курс», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Фактически термины «KDD» и «глубинный анализ данных» описывают одну и ту же концепцию; различие заключается только в том, что термин «глубинный анализ данных» более распространен в бизнес-сообществах, а «KDD» — в академических кругах. Сегодня эти понятия часто взаимозаменяются [3] Некоторые специалисты все же проводят границу между глубинным анализом данных и KDD, рассматривая первый как подраздел второго и определяя его как один из методов обнаружения знаний в базах данных. , и многие ведущие академические центры используют как одно, так и другое. И это закономерно, ведь главная научная конференция в этой сфере так и называется — Международная конференция по обнаружению знаний и глубинному анализу данных.

Возникновение и эволюция науки о данных

Термин «наука о данных» появился в конце 1990-х гг. в дискуссиях, касающихся необходимости объединения статистиков с теоретиками вычислительных систем для обеспечения математической строгости при компьютерном анализе больших данных. В 1997 г. Джефф Ву выступил с публичной лекцией «Статистика = наука о данных?», в которой осветил ряд многообещающих тенденций, в том числе доступность больших и сложных наборов данных в огромных базах и рост использования вычислительных алгоритмов и моделей. В завершение лекции он призвал переименовать статистику в «науку о данных».

В 2001 г. Уильям Кливленд опубликовал план действий по созданию университетского факультета, сфокусированного на науке о данных {1} . В плане подчеркивалось место науки о данных между математикой и информатикой и предлагалось понимать ее как междисциплинарную сферу. Специалистам по данным предписывалось учиться, работать и взаимодействовать с экспертами из этих областей. В том же году Лео Брейман опубликовал статью «Статистическое моделирование: две культуры» {2} . В ней он охарактеризовал традиционный подход к статистике как культуру моделирования данных, которая предполагает основной целью анализа выявление скрытых стохастических моделей (например, линейной регрессии ), объясняющих, как были сгенерированы данные. Брейман противопоставляет это культуре алгоритмического моделирования, которая фокусируется на использовании компьютерных алгоритмов для создания более точных моделей прогнозирования, не объясняющих то, как данные были получены. Проведенная Брейманом граница между статистическими моделями, которые объясняют данные, и алгоритмическими, которые могут их точно прогнозировать, подчеркивает коренное различие между статистиками и исследователями машинного обучения. Споры между этими двумя подходами не утихают до сих пор {3} . В целом сегодня большинство проектов, осуществляемых в рамках науки о данных, соответствует подходу машинного обучения к построению точных моделей прогнозирования и все меньше озабочены статистическим объяснением. Таким образом, хотя наука о данных родилась в дискуссиях вокруг статистики и до сих пор заимствует некоторые статистические методы и модели, со временем она разработала свой собственный, особый подход к анализу данных.

С 2001 г. концепция науки о данных значительно расширилась и вышла за пределы модификаций статистики. Например, в последние 10 лет наблюдается колоссальный рост объема данных, генерируемых онлайн-активностью (интернет-магазинами, социальными сетями или развлечениями). Чтобы собрать эту информацию (порой неструктурированную) из внешних веб-источников, подготовить и очистить ее для использования в проектах по анализу данных, специалистам по данным требуются навыки программирования и взлома. Кроме того, появление больших данных означает, что специалист по данным должен уметь работать с такими технологиями, как Hadoop. Фактически сегодня понятие «специалист по данным» стало настолько широким, что вызвало настоящие дебаты о том, как определить его роль и требуемые опыт и навыки {4} . Тем не менее можно перечислить их, опираясь на мнение большинства людей, как это сделано на рис. 1. Одному человеку трудно овладеть всем перечисленным, и большинство специалистов по данным действительно обладают глубокими знаниями и реальным опытом только в некоторых из этих областей. При этом важно понимать и осознавать вклад каждой из них в проекты по обработке данных.

Специалист по данным должен иметь экспертный опыт в предметной сфере - фото 3

Специалист по данным должен иметь экспертный опыт в предметной сфере. Большинство проектов начинаются с реальной проблемы и необходимости разработать ее решения. Специалист по данным должен понимать и проблему, и то, как ее решение могло бы вписаться в организационные процессы. Этот экспертный опыт направляет специалиста при поиске оптимального решения. Он также позволяет конструктивно взаимодействовать с отраслевыми экспертами, чтобы докопаться до самой сути проблемы. Кроме того, специалист по данным может использовать его в работе над аналогичными проектами в той же или смежной областях и быстро определять их фокус и охват.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Наука о данных. Базовый курс»

Представляем Вашему вниманию похожие книги на «Наука о данных. Базовый курс» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Наука о данных. Базовый курс»

Обсуждение, отзывы о книге «Наука о данных. Базовый курс» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x