Это предостережение тесно связано со старой максимой, согласно которой «корреляция не означает причинности». Само по себе наличие сколь угодно точной корреляции между двумя наборами данных не говорит о том, что одни из них являются причиной других. Имеется множество причудливых примеров, иллюстрирующих это положение [182]. Например, в течение одиннадцатилетнего периода с 1999 по 2010 г. колебания суммарного объема расходов на научные исследования, космические разработки и технологическое развитие в США почти точно повторяли колебания числа самоубийств через повешение и удушение. Чрезвычайно маловероятно, чтобы между этими явлениями существовала какая бы то ни было причинно-следственная связь: сокращение расходов на науку явно не могло быть причиной уменьшения числа повесившихся. Однако во многих случаях такой вывод бывает не столь очевидным. В общем случае корреляция часто бывает важным признаком наличия причинно-следственной связи, но подтверждено оно может быть только после дальнейшего изучения и построения модели механизмов такой связи.
Это особенно важно в медицине. Например, содержание липопротеинов высокой плотности (ЛВП) – которые часто называют «хорошим холестерином» – в крови имеет обратную корреляцию с частотой возникновения инфарктов, из чего можно заключить, что прием лекарств, повышающих уровень ЛВП, должен снижать вероятность инфаркта. Однако данные, свидетельствующие в пользу такой стратегии, неоднозначны: по-видимому, искусственное повышение уровня ЛВП не приводит к улучшению состояния сердечно-сосудистой системы. Это может быть связано с воздействием других факторов – например, генетической предрасположенности, диеты и физической нагрузки, – которые влияют одновременно и на уровень ЛВП, и на вероятность возникновения инфаркта, между которыми может и не быть прямой причинно-следственной связи. Возможно даже, что причинная связь действует в обратном направлении и здоровое состояние сердечно-сосудистой системы приводит к повышению уровня ЛВП. Выявление преимущественных причин инфарктов явно требует организации широкомасштабной исследовательской программы, включающей в себя сбор больших объемов данных в сочетании с развитием моделей механизмов воздействия каждого из факторов – генетических, биохимических, диетологических и экологических. И действительно, на осуществление этой стратегии выделяются огромные средства в разных отраслях медицины.
Большие данные в первую очередь следует рассматривать в следующем контексте: появившиеся сейчас дополнительные возможности «умных» устройств, позволяющих собирать огромные объемы существенных данных, могут усилить классический научный метод, предполагающий кропотливый анализ, развитие моделей и концепций, предсказания которых можно проверить и использовать для разработки новых методик и стратегий. Центральный элемент этой парадигмы состоит в том, что именно непрерывное совершенствование моделей определяет, какие именно данные, в каком количестве и с какой точностью важнее всего получить. Выбор переменных, которые мы рассматриваем и измеряем для получения данных, не случаен – он определяется прошлыми успехами и неудачами в контексте развивающейся концептуальной системы. Наука не сводится к случайным поискам вслепую.
Пришествие больших данных породило сомнения в этом классическом мировоззрении. В 2008 г. в журнале Wired появилась крайне полемическая статья под названием «Конец теории: потоп данных приводит к устареванию научного метода» (The End of Theory: The Data Deluge Makes the Scientific Method Obsolete), в которой тогдашний редактор этого журнала Крис Андерсон писал:
Ставшие сейчас доступными огромные объемы данных в сочетании со статистическими методами, позволяющими обрабатывать эти цифры, открывают совершенно новые пути понимания мира. Корреляция важнее, чем причинность, и наука может двигаться вперед даже и без непротиворечивых моделей, объединенных теорий или, собственно говоря, вообще каких-либо механистических объяснений… при наличии массы данных такой подход к научным исследованиям – гипотеза, модель, проверка – оказывается устаревшим. ‹…› Отбросим все теории человеческого поведения, от лингвистических до социологических. Забудем таксономию, онтологию и психологию. Как знать, почему люди ведут себя именно так, а не иначе? Важно то, что они ведут себя именно так, и мы можем отслеживать и измерять их поведение с беспрецедентной точностью. При наличии достаточного количества данных цифры говорят сами за себя. ‹…› Сегодня компании вроде Google, выросшие в эпоху доступности огромного количества данных, могут не довольствоваться ошибочными моделями. Собственно говоря, модели им вообще не нужны. ‹…› Нет никаких причин цепляться за старые методы. Пора спросить: чему Google может научить науку?
Читать дальше
Конец ознакомительного отрывка
Купить книгу