Одно из проявлений такой позиции — одержимость количественным анализом, который заменяет мудрость и опыт. Количественное выражение принимает разные формы. Например, движение «измерение себя». Его последователи используют электронные устройства для наблюдения и количественного выражения разных аспектов своего поведения. Движение отражает устойчивую тенденцию к количественному описанию во всем американском обществе: в здравоохранении, образовании, государственной власти и личной жизни. Это уже хорошо знакомые нам «большие данные».
Допущения в основе больших данных
Большие данные связаны с корреляцией, а не с причинной связью. Они могут выявить статистически значимую зависимость, но не объяснить ее. С увеличением наборов данных возрастает риск недостоверных статистически значимых корреляций. В огромном стоге сена может быть спрятана масса иголок. Большие данные предлагают информацию без какого-либо истолкования. Как отметил в 2014 году экономист и журналист Тим Харфорд в статье в Financial Times , «большие данные не решают проблему, которой веками одержимы специалисты по статистике и ученые. Не позволяют понять значение происходящего и определить, как своим вмешательством мы можем изменить систему к лучшему».
Что происходит, когда большие данные используются вместо традиционных методов исследования, а не наряду с ними? Ситуация с Google Flu Trends служит наглядным примером. В 2008 году исследователи Google поставили цель использовать поисковые запросы для предсказания массовых вспышек гриппа. Ученые отслеживали в Google запросы, связанные с заболеванием. Предполагалось, что поисковая система поможет выявлять очаги гриппа быстрее, чем центры по контролю и профилактике заболеваний. С помощью технологии анализа данных в реальном времени и распознавания паттернов исследователи применили свою теорию на практике. Результаты были опубликованы в журнале Nature . Все указывало на грандиозный успех. Запросы Google позволяли прогнозировать вспышки гриппа на две недели быстрее, чем данные центров по контролю и профилактике заболеваний.
Но затем Google Flu Trends стала давать сбой. Она упустила из виду эпидемию вируса H1N1 в 2009 году и серьезно переоценила вспышки гриппа в 2012–2013 годах. За двухлетний период, закончившийся в 2013 году, прогнозы Google Flu Trends были завышены в 100 из 108 недель. Что пошло не так? Среди прочих проблем алгоритм Google был уязвим перед любыми запросами, связанными с сезоном гриппа, но не с самим заболеванием. Таким образом, запросы вроде «студенческий баскетбол» [8] Соревнования по баскетболу среди команд колледжей проводятся в марте, в период эпидемий. Прим. ред.
и «куриный бульон» считались сигналом о гриппе, хотя это совершенно случайная корреляция без реальной причинно-следственной связи с заболеванием. Большим данным безразлично, почему сделан запрос: они отражают эмпирический подход. Любые отклонения и искажения при принятии решения людьми отбрасываются. Предпочтение отдается дедуктивному способу рассуждения. Индуктивные методы исследования отвергаются. При достаточном объеме данные говорят сами за себя, и вам не нужна теория. Но в случае с Google Flu Trends для того чтобы придать корреляциям значение и установить причинно-следственную связь, необходим более глубокий анализ. Большие данные не могут просто избавиться от зависимости от традиционных методов исследования. Их смысл по-прежнему зависит от интерпретации. Вопреки всем усилиям Кремниевой долины, большие данные никогда не будут нейтральными.
Несмотря на примеры вроде Google Flu Trends , показывающие ограничения больших данных, сторонники Кремниевой долины продолжают обращать людей в свою веру. Их доводы основаны на легендарной статье «Конец теории» Криса Андерсона, опубликованной в журнале Wired в 2008 году. Якобы то, как мы объясняли действительность в прошлом — с помощью моделей и гипотез, — становится все менее актуальным. Превращается в грубое приближение к истине. В 2008 году интернет, смартфоны и системы управления взаимоотношениями с клиентами уже обеспечивали переизбыток данных. «Цифры говорят сами за себя, — писал Андерсон, цитируя Питера Норвига, директора по исследованиям в Google . — Все модели неверны. И все чаще вы справляетесь с задачей без них». Андерсон развил идеи Норвига и пошел в рассуждениях дальше: «В этом мире огромные массивы данных и прикладная математика заменяют любой другой инструмент, который нам только доводилось использовать. Долой теории человеческого поведения — от лингвистики до социологии. Забудьте таксономию, онтологию и психологию. Кто знает, почему люди поступают так или иначе? Суть в том, что это происходит. И мы можем отследить и измерить все их действия с беспрецедентной точностью. При достаточном объеме данные говорят сами за себя».
Читать дальше
Конец ознакомительного отрывка
Купить книгу