Итерация.Большинство проектов науки о данных требуют более или менее регулярных обновлений и актуализации. При каждом обновлении или итерации процесса можно добавлять новые данные, корректировки, а возможно, и новые алгоритмы. Модели оттока необходимо обновлять на регулярной основе. Частота этих итераций будет варьироваться от проекта к проекту, от ежедневных до одного раза каждые 3, 4, 6 или 12 месяцев. Для определения необходимости обновления моделей может быть встроен контроль генерируемых выходных данных.
Люди всегда абстрагировались от мира и пытались понять его, выявляя закономерности в собственном опыте. Наука о данных — последнее воплощение этого поиска, этой модели поведения. И хотя она имеет такую долгую предысторию, сила ее влияния на современную жизнь беспрецедентна. Слова «точный», «умный», «целевой» и «персонализированный» являются частью отраслевых названий науки о данных: точная медицина, точный полицейский контроль, точное сельское хозяйство, умные города, умный транспорт, целевая реклама, персонализированные развлечения . Все эти сферы человеческой жизни объединяет необходимость принятия решений. Какое лечение использовать для этого пациента? Как распределить полицейские ресурсы? Сколько удобрений нужно внести? Сколько школ необходимо построить в ближайшие четыре года? Кому мы должны отправить это дополнение? Какой фильм или книгу порекомендовать этому человеку? Именно наука о данных помогает принимать такие решения. Успешный проект науки о данных обеспечивает актуальное понимание вопроса, которое помогает принять наилучшее решение и достигнуть наилучших результатов.
Наука о данных в ее современном виде представляет собой смесь больших данных, компьютерных мощностей и человеческой изобретательности в целом ряде технологических областей (от глубинного анализа данных и исследования баз до машинного обучения). Эта книга призвана дать обзор основных идей и концепций, которые необходимы для понимания науки о данных. Жизненный цикл проекта CRISP-DM делает процесс обработки данных открытым и обеспечивает структуру для перехода от данных к мудрости: формулируйте проблему, подготавливайте данные, используйте машинное обучение для выявления закономерностей и создания моделей, применяйте модели для проникновения в суть. В книге также затрагиваются этические проблемы, связанные с конфиденциальностью. У нас есть искренние и обоснованные опасения, что наука о данных может быть использована правительствами и/или заинтересованными лицами для манипулирования нашим поведением и контроля над нашими действиями. Нам необходимо выработать обоснованное мнение о том, в каком мире мы хотим жить, и подумать о законах, которые бы направили науку о данных в соответствующих направлениях. Говоря о будущем, при всех возможных этических проблемах джинн уже выпущен из бутылки: наука о данных оказывает и будет оказывать существенное влияние на нашу повседневную жизнь. При правильном использовании она сможет улучшить ее. Но для того чтобы организации, в которых мы работаем, сообщества и семьи, в которых мы живем, получали выгоду от науки о данных, нам нужно понять и изучить, что она собой представляет, как работает, что умеет и чего не умеет. Мы надеемся, что эта книга поможет вам в этом.
CRISP-DM
Межотраслевой стандартный процесс, определяющий жизненный цикл проекта исследования данных. Часто используется в науке о данных.
Пирамида DIKW (DIKW Pyramid)
Модель структурных отношений между данными, информацией, знаниями и мудростью. В пирамиде DIKW данные предшествуют информации, которая предшествует знаниям, которые предшествуют мудрости.
Hadoop
Платформа с открытым исходным кодом, разработанная Apache Software Foundation, предназначенная для обработки больших данных. Использует распределенное хранение и обработку по кластерам аппаратного обеспечения.
OLAP — интерактивная аналитическая обработка
Операции OLAP генерируют сводки исторических данных и включают агрегирование данных из нескольких источников. Они предназначены для генерации сводок по типам отчетов и позволяют пользователям раcпределять, фрагментировать и переворачивать данные в хранилище, используя предопределенный набор атрибутов, например продажи по магазинам, продажи по кварталам.
SQL — язык структурированных запросов
Читать дальше
Конец ознакомительного отрывка
Купить книгу