Революционное свойство больших данных состоит в том, что даже абсолютное знание о предмете не дает таких возможностей, как знание о предмете в системе больших данных.
Американский социолог Сет Стивенс-Давидович, длительное время проработавший в компании Google на должности аналитика больших данных и выпустивший известную, насыщенную яркими примерами книгу
«Все Лгут. Поисковики, Big Data и Интернет знают о вас всё», посвященную возможностям больших данных в изучении общества и его отдельных индивидов, выделяет 4 могущественных особенности больших данных:
- способность предложить новые типы фактов;
- предоставление самых правдивых фактов;
- возможность проводить многочисленные причинно-следственные эксперименты;
- возможность рассматривать самые мелкие подмножества людских сообществ.
Недостатком или, скорее, особенностью применения технологии анализа больших данных является то, что, с одной стороны, она позволяет дать ответы на самые трудные вопросы и показать скрытую информацию, а с другой, часто существует сложность в объяснении причин выявления той или иной полученной информации. Проще говоря, анализ больших данных в нынешних условиях (с существующими компьютерами и алгоритмами) в основном отвечает на вопрос «что?», но не «почему?». Это, кстати, стало одной из причин отказа китайских властей от массового использования системы борьбы с коррупцией Zero Trust: алгоритм крайне эффективно находил коррупционеров, но не мог объяснить или доказать их причастность к экономическим преступлениям 25.
Сегодня мы находимся лишь на заре новой революции. Многочисленные примеры эффективного использования больших данных имеются еще как минимум с начала ХХ века, но задача получения максимально быстрого и точного ответа на поставленные вопросы диктует мировой экономике и обществу необходимость массового внедрения современных технологий — в первую очередь систем сбора и обработки данных, получения максимально быстрого и точного ответа на поставленные вопросы.
Вместе с тем в наши дни обработка больших данных сопряжена с огромным количеством сложностей. Для того чтобы в наши дни найти ответ на любой поставленный вопрос, в подавляющем большинстве случаев не хватает данных, представляющих различные аспекты исследуемого предмета. Датификация по-прежнему охватывает лишь определенную, не столь значительную часть нашей жизни. Когда же набирается большой объем данных, из них порой становится еще сложнее выделить релевантные значения, отсеяв малозначимые сведения. В итоге решение принимается на основе лишь малой толики реально существующей информации. Ошибки датчиков или других инструментов сбора данных могут остаться незамеченными и испортить целые информационные системы. Наконец, существует проблема ложных корреляций, когда найденные закономерности не всегда могут говорить о реальности взаимосвязей между предметами (вроде корреляции между ежегодным количеством фильмов с Томом Хэнксом и жертв транспортных происшествий), что ставит под угрозу целесообразность всех принятых на основе анализа больших данных решений.
Строительство железных дорог в свое время также проходило с большими трудностями: скептики могли считать, что пройдет год-другой и люди бросят прокладку дорогущих рельсов протяженностью тысячи километров и вернутся к старым добрым лошадям. Однако эффективность новых технологий, огромные прибыли и само время неминуемо ломали старые каноны, изменяя привычный уклад жизни каждого человека до неузнаваемости. В области обработки больших данных прогресс мчится вперед с огромной скоростью, возможно, опережая наше о нем представление. Всего десять лет назад сам термин big data встречался в основном в узкоспециализированной литературе (и в другом значении), тогда как сегодня подобный подход к получению информации и связанные с ним возможности развития экономики и общества вызывают все больший интерес и широко обсуждаются. Совсем недавно обработка больших данных казалась сложным процессом, доступным лишь серьезным ученым и крупным компаниям, а в наши дни уже создан широкий общедоступный инструментарий, позволяющий любому человеку освоить азы работы с большими данными, собирать данные, извлекать из них информацию для продажи или личной пользы. Информационные корпорации вроде Google создают общедоступные интерфейсы, предоставляющие пользователям конечную информацию как результат обработки больших данных (например Google Trends, Correl и т.д.).
Читать дальше