Помимо энергетики и транспорта, наука о данных используется в коммунальном хозяйстве и для долгосрочного планирования инфраструктурных проектов. Эффективность предоставляемых коммунальных услуг контролируется путем мониторинга их текущего, прогнозирования ожидаемого и изучения предыдущего потребления при аналогичных условиях. Коммунальные службы используют науку о данных по-разному. Например, для управления сетью коммунального снабжения, включая контроль поставок для коммунальных предприятий, их качества, оценку возникающих проблем, выявление областей, требующих более интенсивного снабжения, автоматическое изменение маршрутов доставки и мониторинг любых аномалий в сети. Другой пример использования науки о данных коммунальными службами — мониторинг клиентов. Отклонения параметров потребления могут указывать на криминальную активность (например, наличие домашней плантации конопли), на нелегальную перенастройку измерительного оборудования, а также на клиентов, которые с большой вероятностью не будут платить по счетам. Науку о данных применяют и в городском планировании для поиска оптимального варианта застройки и сопутствующих ей услуг. Симуляции, основанные на моделях прогнозирования прироста населения, позволяют планировщикам оценить, когда и где понадобятся те или иные услуги, например общеобразовательные школы.
Проектные принципы науки о данных: почему одни проекты успешны, а другие нет
Порой проекты науки о данных терпят неудачу, поскольку не оправдывают ожиданий, увязают в технических или политических вопросах, не приносят полезных результатов и, как правило, после этого больше не запускаются. Подобно утверждению о счастливых семьях Льва Толстого [34], успех проекта науки о данных зависит от ряда факторов. Успешные проекты требуют целенаправленности, хорошего качества данных, нужных людей, готовности экспериментировать с несколькими моделями, интеграции в архитектуру и процессы ИТ-бизнеса, поддержки со стороны высшего руководства и признания организацией необходимости регулярного пересмотра моделей в силу меняющегося мира. Сбой в любом из этих аспектов может привести к провалу всего проекта. Далее мы подробно опишем общие факторы, влияющие на успешность проектов науки о данных, а также типичные причины, которые приводят к их провалу.
Фокусировка.Каждый успешный проект науки о данных начинается с четкого определения проблемы, которую он должен помочь решить. Этот шаг подсказывает обычный здравый смысл — проекту сложно достичь успеха, если у него нет четкой цели. Наличие четкой цели определяет решения относительно того, какие данные и алгоритмы машинного обучения использовать, как оценивать результаты, как будут применяться анализ и развертываться модели и когда может потребоваться повторный процесс для обновления моделей.
Данные.Точно сформулированная задача позволяет определить, какие данные необходимы для проекта. Ясность в этом вопросе помогает направить проект туда, где эти данные находятся. Если какие-то данные в настоящее время недоступны, следует запустить вспомогательные проекты, которые изучат возможность сбора и доступность этих данных. При этом крайне важно обеспечить их высокое качество. Потеря качества данных может произойти в силу плохо спроектированных приложений или плохих моделей, имеющихся у организации, персонала, не обученного правильно вводить данные, или по иным причинам. На самом деле существует масса факторов, которые снижают качество данных в системах, а потребность в данных хорошего качества настолько важна, что некоторые организации нанимают специалистов, которые постоянно проверяют данные, оценивая их качество и внося предложения о его улучшении. Без качественных данных добиться успеха трудно.
Прежде чем привлекать сторонние источники данных, стоит проверить, какие данные уже собраны и используются в организации. К сожалению, подход некоторых наукоемких проектов заключается в том, чтобы сразу взять доступные данные из транзакционных баз или других источников, очистить и интегрировать их, а затем приступить к исследованию и анализу. Такой подход полностью игнорирует группу бизнес-аналитики и возможное наличие хранилища данных. Во многих организациях бизнес-аналитики и специалисты по организации хранилища данных уже собирают, очищают, трансформируют и интегрируют данные организации в один центральный репозиторий. Если хранилище уже существует, то, вероятно, оно содержит все или бо́льшую часть данных, необходимых для проекта, что может сэкономить значительное время на их интеграцию и очистку. Кроме того, в хранилище будет гораздо больше данных, чем в текущих транзакционных базах. Используя хранилище данных, можно вернуться на несколько лет назад и построить прогнозные модели, а затем прокрутить их на разных временных периодах и измерить уровень точности прогнозов для каждой из моделей. Это позволяет отслеживать изменения в данных и их влияние на модели. Кроме того, можно отслеживать, как эти изменения происходят и развиваются с течением времени. Использование такого подхода облегчает демонстрацию поведения моделей в долгосрочном периоде, что помогает укрепить доверие клиентов. Например, в одном проекте на основе пятилетних исторических данных из хранилища было продемонстрировано, как именно компания могла сэкономить более $40 млн за этот период.
Читать дальше
Конец ознакомительного отрывка
Купить книгу