– Что такое «большие данные» и как они влияют на изменения в бизнесе, политике, социальной сфере?
– Давайте начнем с определений, потому что как таковой технологии «больших данных» не существует. «Большие данные» – это некоторый маркетинговый термин, который объединяет много разных понятий. Кто-то к «большим данным» относит развитие искусственного интеллекта и автоматическое принятие им решений. Кто-то воспринимает «большие данные» информацией, которую невозможно посчитать на локальном компьютере. Для кого-то «большие данные» – это данные от нескольких петабайт. И если вы спросите рядового журналиста или, например, сотрудников компании «Яндекс» об этом, вы получите совершенно разные ответы и разное ощущение масштаба.
У меня тоже нет ощущения, что «большие данные» – это объемы, так как сейчас и терабайт не является «большими данными». Петабайтом сейчас мало кого можно удивить, поэтому нет такого явления, как «большие данные». Сегодня это – некоторая совокупность технологий, которая включает обработку, сбор, обмен, интеграцию, публикацию и все остальное, что касается работы с большими объемами информации.
К чему это приводит? Создается инфраструктура, которая существует для обмена большим количеством информации. Она применяется для самых разных задач, например: для интернета вещей, для мониторинга сельхоздеятельности (уход за животными, землями), для мониторинга самолетов в реальном времени, для понимания поведения потребителей, для слежки за гражданами страны со стороны спецслужб, для научных исследований. Большой адронный коллайдер генерирует в день, по-моему, около петабайта данных. Там невероятное количество сенсоров. У них в работе действительно огромные объемы данных, и когда мы говорим про примеры – вот, пожалуйста.
Мы редко задумываемся, почему в некоторых точках продажи при оплате банковской картой не требуется ввод PIN-кода, а в других – при схожей сумме – нам приходится вводить заветные четыре цифры. Это – бытовой пример анализа активности потребителя на основе сотен данных: геолокации, точки продажи, периодичности, времени совершения операции и т. п.
В качестве еще одного примера рассмотрим подход, который применяется в Калифорнийском университете в Сан-Франциско при работе с пациентами клиник. Здесь врачи во время работы с пациентом узнают не только о симптомах болезни и просматривают историю прошлых обращений. Их интересует контекст, в котором живет пациент: экономический, социальный, экологический и т. п. Как заявляют исследователи, такой подход позволяет лучше выявлять причины заболеваний и находить эффективные способы их лечения. Помимо этого, соотнесение болезней с «жизненным контекстом» пациента позволяет предсказывать их распространение и быстрее реагировать в критических ситуациях.
На презентации новых продуктов компании Apple в 2018 году было представлено четвертое поколение умных часов. Помимо функции определения падения человека и соответствующего шаблона реагирования, обновленные сенсоры устройства позволяют каждому пользователю пройти процедуру ЭКГ (электрокардиограмму) за считанные секунды и без посещения клиники. Для отслеживания малейших изменений в работе сердца необходимо проводить эту процедуру как можно чаще, а не раз в год, как это часто бывает. В последнем случае реакция на проблему может оказаться запоздалой.
Не сложно представить, как в развитых странах совсем скоро умные часы станут таким же атрибутом получения данных, как и некоторые медицинские приборы. Разница в том, что гаджеты всегда с нами, и поверьте, благодаря совершенствованию математических моделей они уже знают о нас больше, чем мы можем себе представить. Питание алгоритмов данными через устройство выгодно ровно до тех пор, пока человек будет получать необходимую персонализированную и важную информацию. И это абсолютно рационально, если позволит человеку жить дольше.
Три четверти новых покупок на сайте онлайн-кинопрокатчика Netflix делается благодаря предложениям системы рекомендации 10. Увеличение потока данных от конкретного пользователя дает возможность создать более персонализированный продукт и адекватное потребительское предложение. И это уже стали понимать сами пользователи. В 2009 году компания Google анализировала данные в онлайн-режиме и благодаря математической модели смогла определить корреляцию между поисковыми запросами и распространением вируса H1N1. Система была права в 97% случаев 11.
Читать дальше