Гинзберг подозревал, что заболевание гриппом напрямую связано с поисковыми запросами относительно его лечения. В сущности, люди сообщают о своих симптомах Google. Джереми решил, что эти запросы могут дать достаточно точную оценку текущему состоянию заболеваемости гриппом. И действительно, такие поисковые фразы как «симптомы гриппа» и «боль в мышцах» оказались важными показателями скорости распространения этого заболевания [9].
Тем временем инженеры компании Google создали сервис Google Correlate, дающий внешним исследователям средства экспериментирования с тем же типом анализа в достаточно широком диапазоне полей, а не только в здоровье. Исследователи могут взять любой ряд данных, которые они отслеживают, и посмотреть, какие поисковые запросы в Google наиболее явно коррелируют с ним.
Например, с помощью Google Correlate мы с Хэлом Варианом, главным экономистом Google, сумели выяснить, какие поисковые запросы позволяют наиболее точно отслеживать динамику изменения цен на жилье {45}. Когда последние растут, американцы, как правило, используют для поиска такие фразы, как «80/20 ипотека», «новый дом от застройщика» и «увеличение стоимости капитала». Когда же они падают, люди чаще всего ищут «процесс продажи без покрытия», «отрицательная ипотечная стоимость» и «снижение ипотечной задолженности».
Так может быть, поиск в Google можно использовать в качестве лакмусовой бумажки для оценки безработицы таким же образом, как он используется для оценки стоимости жилья или распространения эпидемии гриппа? В состоянии ли мы, просто оценивая запросы людей в Google, сказать, сколько из них не имеют работы? И можно ли сделать это достаточно точно до того, как правительство соберет и обнародует свои результаты опросов?
В один прекрасный день я ввел в Google Correlate запрос «Уровень безработицы в США в период с 2004 по 2011 год».
Как вы думаете, какие из триллионов запросов в Google за это время оказались наиболее тесно связаны с безработицей? Вы можете подумать, что это «биржа труда» или что-то подобное. Да, количество таких запросов увеличилось, но не они были на самом верху списка. «Новые рабочие места»? Тоже много, но не первые.
Наиболее высокий уровень запросов за рассматриваемый мной период был со словами «Slutload». Вы верите? Чаще всего люди искали порнографический сайт с таким названием. Это может показаться странным – на первый взгляд. Но у безработных людей внезапно появляется очень много свободного времени. Многие из них застряли дома одни, и им скучно. Еще очень часто встречается запросов «игра «паук». Опять же, это не удивительно для группы людей, у которых, предположительно, внезапно оказалось очень много свободного времени.
Сейчас я не хочу спорить, но, основываясь на этом анализе, могу сказать: отслеживание «Slutload» или игры «паук» является лучшим способом прогнозирования уровня безработицы. Со временем могут появляться некоторые отклонения: безработные могут искать, например, «rawtube» – другой порносайт. Ни одно из этих условий само по себе не связано с увеличением числа безработных. Но в целом я обнаружил, что смесь подобных поисковых запросов позволяет адекватно оценивать уровень безработицы и является частью самой лучшей модели прогнозирования этого явления.
Данный пример иллюстрирует могущество больших данных: возможность переосмыслить то, что следует квалифицировать как данные. Часто наиболее ценным в больших данных является не их размер, а тот факт, что они могут предложить вам новые виды информации для исследования, которые никогда раньше не собирались.
До появления Google существовали сведения об определенных видах деятельности (например, о продаже билетов в кино), которые могут дать подсказки о том, каким количеством свободного времени располагают люди. Но возможность узнать, сколько из них раскладывают пасьянс или смотрят порно – это нечто новое, и это очень мощный ресурс. В данном случае эта информация способна помочь нам быстрее оценить состояние экономики – по крайней мере, до тех пор, пока правительство не научится быстрее проводить опросы и обобщать полученные данные.
Жизнь в кампусе Google в Маунтин-Вью, Калифорния, существенно отличается от той, которая кипит в штаб-квартире Goldman Sachs на Манхеттене. В 9 часов утра офисы Google почти пусты. Если в поле зрения оказывается кто-либо из работников, скорее всего, он пришел, чтобы съесть бесплатный завтрак – бананово-черничные блинчики, омлет и огуречную воду. Некоторых сотрудников может просто не быть в городе – они присутствуют на выездном заседании в Боулдере, в Лас-Вегасе или, возможно, принимают участие в бесплатном лыжном походе к озеру Тахо. Примерно в обеденное время волейбольная площадка и футбольное поле наполнятся людьми. Лучший буррито, который я когда-либо ел, был в мексиканском ресторане Google.
Читать дальше
Конец ознакомительного отрывка
Купить книгу