Большие данные, несомненно, окажут огромное влияние на все аспекты нашей жизни и, кроме того, принесут немалую пользу научным исследованиям. Успех этих исследований – появление крупных открытий и новых взглядов на мир – будет зависеть от того, насколько их удастся объединить с глубоким концептуальным мышлением и традиционными методами разработки теорий. Точка зрения Андерсона и, хотя и в меньшей степени, Грея – это своего рода вариант «Теории всего» для информатиков и статистиков. Она утверждает с той же гордыней и тем же нарциссизмом, что именно в ней заключается единственный способ понять все. Станут ли большие данные новой наукой, пока неясно. Но они действительно могут ею стать, если будут использоваться в сочетании с традиционным научным методом.
Замечательный пример того, как интеграция больших данных с традиционной научной методологией может привести к важному научному открытию, дает открытие бозона Хиггса. Прежде всего вспомним, что бозон Хиггса – это ключевой элемент основополагающих законов физики. Он пронизывает всю Вселенную и порождает массу всех элементарных частиц материи, от электронов до кварков. Его существование было блестяще предсказано более шестидесяти лет назад группой из шести физиков-теоретиков. Это предсказание не возникло на пустом месте, а было итогом развития традиционной науки с анализом тысяч экспериментов, поставленных в течение многих лет, и итерационного применения к ним математических теорий и концепций, разработанных для наиболее экономного объяснения наблюдаемых явлений, и постановки следующих экспериментов для проверки теоретических предсказаний.
Развитие технологий до уровня, на котором появилась возможность предпринять серьезные поиски этого трудноуловимого, но жизненно важного элемента нашей объединенной теории фундаментальных сил природы, заняло более пятидесяти лет. Центральным этапом этих поисков было строительство гигантского ускорителя элементарных частиц, в котором два кольцевых протонных пучка движутся в противоположных направлениях со скоростью, близкой к скорости света, и сталкиваются друг с другом в зонах взаимодействия, находящихся под тщательным контролем экспериментаторов. Сооружение этой установки под названием Большого адронного коллайдера (Large Hadron Collider, LHC), построенной в Европейском центре ядерных исследований в швейцарском городе Женеве, стоило более 6 млрд долларов. Даже размеры этого титанического научного прибора поражают воображение: длина его кольца составляет около 27 км, а каждый из двух основных детекторов, которые, собственно, и производят наблюдения и измерения столкновений частиц, имеет около 50 м в длину, 25 м в высоту и 25 м в ширину.
Весь этот проект в целом представляет собой беспрецедентное техническое достижение, а полученная в его результате информация далеко опережает по объемам любые большие данные – ничто другое даже приблизительно с ней не сравнится. Каждую секунду происходит около 600 миллионов столкновений, за которыми следят около 150 миллионов индивидуальных датчиков в каждом из детекторов. Это дает около 150 миллионов петабайт данных в год, или около 150 эксабайт в сутки (как мы помним, байт – это базовая единица информации). Попробуем осознать, что́ означают эти цифры. Созданный в редакторе Word документ, содержащий весь текст этой книги и все ее иллюстрации, занимает менее 20 мегабайт (20 МБ – это 20 млн байт). В моем компьютере MacBook Air можно сохранить до 8 гигабайт данных (8 ГБ – это 8 млрд байт). Все фильмы, хранящиеся в системе Netflix, занимают менее 4 петабайт, что равно 4 млн ГБ, то есть приблизительно в полмиллиона раз больше, чем емкость моего компьютера. Дальше – больше: суммарный объем данных, производимых за каждые сутки всеми компьютерами и другими информационными устройствами в мире, вместе взятыми, составляет около 2,5 эксабайта, а один эксабайт равен 10 18байт, то есть миллиарду гигабайт.
Эти поразительные цифры часто рекламируют в качестве меры революции больших данных. Но на самом деле замечательно другое: они меркнут в сравнении с объемами данных, которые производит LHC. Если регистрировать каждое из 600 млн столкновений, происходящих каждую секунду, их объем составит около 150 эксабайт в сутки, что приблизительно в 60 раз больше суммарного количества данных, производимых всеми вычислительными устройствами в мире, вместе взятыми. Очевидно, это означает, что наивная стратегия, которая позволяет данным «говорить самим за себя» при помощи алгоритмов обучения машин, используемых для поисков корреляций, которые в конце концов должны будут привести к обнаружению механизма Хиггса, работать не будет. Даже если такая машина будет выдавать в миллион раз меньше данных, успешность такой стратегии остается крайне маловероятной. Как же физикам удалось найти пресловутую иголку в этом гигантском стогу сена?
Читать дальше
Конец ознакомительного отрывка
Купить книгу