В США, как и в других странах, центры по контролю и профилактике заболеваний (CDC) обязали врачей сообщать о новых случаях гриппа. И все-таки информация о возникшей пандемии каждый раз запаздывала на одну-две недели. Люди по-прежнему обращались к врачу лишь спустя несколько дней после первых признаков недомогания. Вдобавок время уходило на то, чтобы передать эту информацию в CDC. Организация лишь констатировала количество случаев каждую неделю. При быстром распространении заболевания отстать на две недели означало безнадежно опоздать. Из-за этой задержки государственные учреждения здравоохранения вынуждены были действовать вслепую в самые ответственные моменты.
За несколько недель до того, как сведения об H1N1 попали на первые полосы газет, инженеры интернет-гиганта Google опубликовали потрясающую статью в научном журнале Nature. [1] Статья о тенденциях распространения гриппа, опубликованная в научном журнале Nature: Jeremy Ginsburg et al. Detecting influenza epidemics using search engine query data // Nature. — 2009. — Vol. 457. — P. 1012–1014. URL: http://www.nature.com/nature/journal/v457/n7232/full/nature07634.html
Она произвела настоящий фурор среди медицинских чиновников и программистов, но не привлекла интереса широкой аудитории. Речь шла о том, как компания Google может «предсказать» распространение зимнего гриппа в США не только в масштабах страны, но и в отдельных регионах и даже штатах. Чтобы добиться такого результата, специалисты Google проанализировали поисковые запросы интернет-пользователей. Более трех миллиардов поисковых запросов, отправляемых в поисковую систему Google ежедневно со всего мира, составили огромный массив данных для обработки. Пригодилось и то, что Google хранит все поисковые запросы в течение многих лет.
Специалисты Google взяли 50 миллионов наиболее распространенных условий поиска, которые используют американцы, и сравнили их с данными CDC о распространении сезонного гриппа в период между 2003 и 2008 годами. Идея заключалась в том, что людей, подхвативших вирус гриппа, можно определить по тому, что они ищут в интернете. Предпринимались и другие попытки связать эти показатели с данными интернет-поиска, но никто не располагал таким объемом данных, вычислительными мощностями и статистическими ноу-хау, как Google.
В Google предположили, что в интернете существуют поисковые запросы на получение информации о гриппе (например, «средство от кашля и температуры»), но не знали, какие именно. Поэтому была разработана универсальная система, все действие которой сводилось к тому, чтобы находить корреляции между частотой определенных поисковых запросов и распространением гриппа во времени и пространстве. В общей сложности поисковая система Google обработала ошеломляющее количество различных математических моделей (450 миллионов) с целью проверки условий поиска. Для этого прогнозируемые значения сравнивались с фактическими данными CDC о случаях гриппа за 2007–2008 годы. Специалисты Google нашли золотую жилу: их программное обеспечение выявило сочетание 45 условий поиска, использование которых с математической моделью давало коэффициент корреляции между прогнозируемыми и официальными данными, равный 97%. Как и CDC, специалисты компании могли назвать территорию распространения гриппа. Но, в отличие от CDC, они делали это практически в режиме реального времени, а не спустя одну-две недели.
Таким образом, когда в 2009 году распространение вируса H1N1 достигло критических показателей, система оказалась гораздо более полезным и своевременным индикатором, [2] Дополнительное исследование службы Google Flu Trends (в соответствии с независимым дополнительным клиническим исследованием в госпитале Джона Хопкинса): Dugas et al. Google Flu Trends: Correlation with Emergency Department Influenza Rates and Crowding Metrics // CID Advanced Access. — January 8, 2012. — DOI 10.1093/cid/cir883.
чем официальная статистика правительства с ее естественным отставанием из-за бюрократической волокиты. Сотрудники здравоохранения получили ценную информацию. Самое примечательное, метод компании Google позволяет обходиться без марлевых повязок и визитов к врачу. По сути, он создан на основе «больших данных» — способности общества по-новому использовать информацию для принятия взвешенных решений или производства товаров и услуг, имеющих большое значение. Благодаря этому методу к моменту приближения следующей пандемии мир будет владеть эффективным инструментом для ее прогнозирования, а значит, сможет предупредить ее распространение.
Здравоохранение — только одна из областей, в которых большие данные приносят ощутимую пользу. Они приводят к коренному преобразованию целых отраслей. Наглядный тому пример — покупка авиабилетов. [3] Покупка авиабилетов: Farecast — информация от Кеннета Кукьера: Kenneth, Cukier. Data, data everywhere // The Economist. — February 27, 2010. — P. 1–14. А также интервью с Эциони (2010–2012 гг.).
Читать дальше
Конец ознакомительного отрывка
Купить книгу