3. В XXI веке объем производимых и хранимых данных возрастает невиданными темпами. Поэтому появилась новая область знаний – Большие данные(Big Data). Это, согласно [https://ru.wikipedia.org/wiki/Большие_данные] – "совокупность подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети". Их характеристики:
– большой физический объем;
– большая скорость прироста и необходимость быстрого получения результата;
– разнообразие типов структурированных и полуструктурированных данных.
Методы и средства работы с Большими данными бурно развиваются в настоящее время [5] Фрэнкс Б. Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики. – М.: Альпина Паблишер. – 2018. – 320 с. Грас Д. Data Science. Наука о данных с нуля. – СПб.: БХВ-Петербург. – 2019. – 336 с.
.
Особенности больших данных породили целую науку Data science (науку о данных). Это наука о методах анализа данных и извлечения из них полезной информации Она объединяет математические методы, программирование, методы работы с большими данными, методы машинного обучения. Data scientist (ученый по данным) должен владеть:
– математикой и статистикой;
– информационными технологиями, включая программирование;
– пониманием бизнес-процессов, для которых он собирает информацию.
4. Системы поддержки принятия решений(DSS – decision support systems). DSS, которые все чаще используются в настоящее время, – это скоординированный набор данных, систем, инструментов и технологий, программного и аппаратного обеспечения, с помощью которого в организации под управлением пользователя [6] При разработке идеи DSS предполагалось, что пользователями станут руководители. Однако на практике появилась новая должность – аналитик.
собирается и обрабатывается информация о бизнесе и окружающей среде с целью обоснования маркетинговых действий.
DSS состоит из трех основных частей.
– Система данных для сбора и хранения информации о маркетинге, финансах и производстве, получаемой из внутренних и внешних источников. Обычно это база или банк данных, как и в MIS.
– Система диалога, позволяющая пользователю задавать, какие данные следует выбирать и как их обрабатывать.
– Система моделей – идей, алгоритмов и процедур – которые позволяют обрабатывать данные и проводить их анализ. В обработке данных используются различные процедуры, от простого суммирования до статистического анализа и нелинейной оптимизации. Типовыми процедурами являются:
– объединение в группы;
– получение сводных показателей;
– ранжирование;
– выделение особых случаев;
– графическое представление данных.
Несмотря на кажущуюся простоту, важность процедур последнего типа трудно переоценить. Иногда достаточно только взглянуть на графическое представление данных, чтобы понять, даст ли хороший результат кластерный анализ, какой вид регрессионной функции выбрать и т.д.
Модели принятия решений служат для обработки данных, нужных для решения, и по способам представления результатов своей работы подразделяются на информационные (что есть и что будет, если…), советующие (в меру своего "разумения") и (редко) управляющие. Типы таких моделей представлены в таблице 1.
Таблица 1 – Модели принятия решений
В настоящее время идеи DSS получили свое дальнейшее развитие. Прогресс в области вычислительной техники сделал возможным новые подходы к анализу данных.
5. Онлайновая аналитическая обработка данных(OLAP – Online Analytical Processing) – один из новых инструментов. Данные обычно берутся из уже существующих баз данных и подвергаются быстрому, но достаточно поверхностному предварительному разведочному анализу [7] Коробко А.В., Пенькова Т.Г. Интегральная OLAP-модель предметной области для аналитической поддержки принятия решений. // Информационные технологии. – 2014. – № 12, с. 8 – 13.
. В OLAP обычно используется многомерная модель данных. Это позволяет гибко манипулировать информацией, но требует довольно серьезной специальной подготовки.
6. Для обработки данных, в том числе и находящихся в хранилищах, предложена концепция интеллектуального анализа данных(Data Mining – "добыча данных"). Это, согласно [8] Вейнберг Н.Н. Интеллектуальный анализ данных и систем управления бизнес- правилами в телекоммуникациях. – М.: НИЦ ИНФРА-М, 2016. – 173 с.
, "процесс обнаружения в сырых данных ранее неизвестных; нетривиальных; практически полезных; доступных интерпретации знаний … для принятия решений". Новизна подхода заключается в том, что современные мощные компьютеры в состоянии переработать огромные массивы данных и найти в них что-то полезное. Однако не следует считать, что компьютер полностью заменяет исследователя-человека. Наоборот, применение методов Data Mining – процесс, требующий от исследователя глубоких знаний. Система Data Mining требует четко согласованной работы всех своих компонентов. Пользователь должен быть квалифицированным специалистом в таких областях, как работа с базами данных, анализ данных традиционными математическими методами и средствами искусственного интеллекта. Наконец, интерпретация полученных данных и использование полученных результатов также остаются прерогативой человека.
Читать дальше