Прогнозирование (Prediction)
В контексте науки о данных и машинного обучения прогнозирование — это задача вычисления значения целевого атрибута для данного объекта на основе значений других атрибутов (или входных атрибутов) этого же объекта.
Производный атрибут (Derived Attribute)
Атрибут, значение которого генерируется путем применения функции к данным, а не путем прямого измерения объекта (в отличие от базового атрибута). Примером производного атрибута является атрибут, который описывает среднее значение выборки.
Регрессионный анализ (Regression Analysis)
Вычисляет ожидаемое (или среднее) значение числового целевого атрибута при всех заданных значениях входного атрибута. Регрессионный анализ предполагает параметризованную математическую модель гипотетической взаимосвязи между входами и выходами, известную как функция регрессии. Функция регрессии может иметь множество параметров, и целью регрессионного анализа является поиск правильных настроек для них.
Собранные данные (Captured Data)
Данные, которые зафиксированы непосредственно в процессе сбора данных (в отличие от аномалий).
Структурированные данные (Structured Data)
Данные, которые могут храниться в таблице, каждый объект которой имеет одинаковый набор атрибутов (в отличие от неструктурированных данных).
Транзакционные данные (Transactional Data)
Включают информацию о событиях, таких как продажа товара, выставление счета, доставка груза, оплата кредитной картой и т. д.
Умный город (Smart City)
Проекты умных городов, как правило, пытаются интегрировать данные в режиме реального времени из множества различных источников в единый центр данных, где они анализируются и используются для принятия управленческих решений и планирования.
Хранилище данных (Data Warehouse)
Централизованный репозиторий, который содержит данные из разных источников со всех уровней организации. Данные структурированы так, чтобы поддерживать генерацию сводных отчетов. Интерактивная аналитическая обработка (OLAP) — термин, используемый для описания типичных операций в хранилище данных.
Целевой атрибут (Target Attribute)
В задаче прогнозирования целевой атрибут — это атрибут, которому модель прогнозирования обучается для вычисления значений.
Нильсон Н. Дж. Обучающиеся машины. — М.: Мир, 1967.
Цитата взята из приглашения на семинар «KDD — 1989». — Здесь и далее прим. авт .
Некоторые специалисты все же проводят границу между глубинным анализом данных и KDD, рассматривая первый как подраздел второго и определяя его как один из методов обнаружения знаний в базах данных.
https://www.cancer.gov/research/key-initiatives.
https://allofus.nih.gov/.
https://www.policedatainitiative.org/.
Льюис М. MoneyBall. — М.: Манн, Иванов и Фербер, 2013.
Дабнер С., Левитт С. Фрикономика. — М.: Альпина Паблишер, 2018.
https://deepmind.com/research/alphago/.
Хотя многие наборы данных можно описать как плоскую матрицу n × m , существуют сценарии, в которых набор данных представлен в более сложной форме: например, если набор данных описывает эволюцию нескольких атрибутов во времени, то каждый момент времени в наборе данных будет представлен двухмерной плоской матрицей n × m , перечисляющей состояние атрибутов в данный момент времени, но общий набор данных будет трехмерным, где время используется для связывания двумерных срезов момента. В таком контексте термин «тензор» иногда используется для придания идее матрицы дополнительного измерения.
Скрапинг (англ. scraping) — в широком смысле сбор данных с интернет-ресурсов. — Прим. пер .
Интерпретация высказывания Джорджа Бокса: «По сути, все модели ошибочны, но некоторые бывают полезны».
Для числового целевого атрибута наиболее распространенным показателем центральной тенденции является среднее значение, а для номинальных или порядковых данных — диапазон (или наиболее часто встречающееся значение).
Здесь мы используем более сложную запись, включающую и, поскольку далее мы будем расширять эту функцию и включать в нее более одного входного атрибута, а для этого понадобятся индексированные переменные.
Читать дальше
Конец ознакомительного отрывка
Купить книгу