Поясним, что под характеристикой «малые/боль-шие» понимается не только физический объем самих данных, но и их вариативность и многообразие, скорость их прироста и возможности обработки.
При этом нельзя точно сказать, где заканчиваются малые данные и в какой момент они становятся большими. Является ли миллион отдельных показателей малыми данными, а два миллиона уже большими? Или, может быть, большие данные — это только те, которые измеряются терабайтами, для обработки которых требуются суперкомпьютеры и продвинутый искусственный интеллект, а простой структурный анализ уже невозможен?
Посмотрев на происходящую революцию, связанную с резким увеличением данных, исторически, с высоты сотен и тысяч лет, мудрый читатель заметит, что люди испокон веков собирали и обрабатывали данные, пытаясь познать и подчинить себе окружающий мир.
Древние люди держали все собранные знания в голове, передавая важнейшие из них через различные табу, сказания и наскальные рисунки. В Месопотамии для хранения данных использовали глиняные таблички, а в Египте— папирус. Постепенное накопление данных и совершенствование способов их сохранения оказывали не последнее влияние на становление таких общественных институтов, как религия, государство, наука. С течением времени человечество собирало все больше данных и стремилось извлечь из них максимальную пользу. От ранних веков до нового времени и наших дней разнообразные разведки и статистические службы старательно занимались сбором всевозможных данных — начиная с подсчета количества овса, потребного для кавалерии, и заканчивая перлюстрацией любой личной переписки, до которой могли дотянуться. Данные накапливались до того объема, чтобы называться «большими», и в докомпьютерную эпоху даже анализировались без помощи искусственного интеллекта. Так, авторы бестселлера «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» приводят в пример Мори Мэтью Фонтейна, служившего руководителем Картографического департамента ВМС США: исследовав старые, десятилетиями пылившиеся на складе корабельные книжки и дополнив их данными из формы, заполняемой вновь прибывшими кораблями, он еще в первой половине XIX века составил фундаментальную карту морского пространства, позволяющую капитанам судов экономить сотни часов и дней своих плаваний, используя наиболее оптимальные маршруты с учетом течений и ветров 2. В массовости данных также нет ничего нового — еще в 1924 году у Евгенического учетного бюро в Колд-Спринг-Харбор было более 750 000 записей, описывающих «врожденные физические, умственные и темпераментные свойства» американских семей 3. Или же другой пример — применение больших данных в спорте. Много говорят о том, что победа профессиональной спортивной команды сегодня — это во многом победа стоящей за ее спиной команды математиков 4. Анализ игры, поведения соперников, многочисленных разнообразных показателей позволяет спортсменам существенно улучшить результат и добиться успеха. Впрочем, подобные методы в большом спорте применялись в Советском Союзе как минимум с семидесятых годов прошлого века 5.
Можно привести еще много примеров того, как накопленное количество информации, ее разнообразие и скорость обработки в один момент позволяли извлекать из нее новые качественные свойства. Периодическое перетекание количества в качество есть свойство информации.
Невозможно сказать, когда точно заканчиваются «малые» данные и начинаются «большие». В некоторых отраслях, где ранее невозможно было без огромного труда собрать и записать данные, теперь благодаря современным технологиям такая возможность появилась, а их даже относительно небольшой объем порой дает потрясающий результат и описывается в публикациях и статьях в качестве примера использования технологии «больших данных». В иных же сферах объем может исчисляться терабайтами и миллиардами записей — и также хранить в себе скрытые качества. Но даже это не значит, что революция больших данных для них уже пройдена: дальнейший рост объемов, вариативности и возможностей по обработке данных рано или поздно откроет их владельцам новые полезные факты, не очевидные при анализе данных меньшего количества. Например, внедрение банком HSBC системы анализа хранящихся у него больших данных (денежных транзакций, геоданных, поведения клиентов и т.д.) за первые же две недели выявил криминальные группы и мошеннические схемы более чем на 10 миллионов долларов 6.
Читать дальше