Другие поисковые системы находили для своих пользователей веб-сайты, в которых чаще всего фигурируют фразы, введенные в поисковый запрос. Если вы искали информацию о Билле Клинтоне, эти поисковики нашли бы в сети сайты с наибольшим числом упоминаний Билла Клинтона. Существует множество причин, по которым эта рейтинговая система была несовершенной, и одной из них было то, что ее легко обмануть. Сайт с анекдотами, на странице которого будет написано «Билл Клинтон Билл Клинтон Билл Клинтон Билл Клинтон Билл Клинтон», в выдаче будет выше, чем официальный сайт Белого дома [56] В 1998 году, если вы искали «машина» в популярной до-Google поисковой системе, вас завалили бы адресами порносайтов*. Там было написано слово «машина» – часто белыми буквами на белом фоне, – чтобы обмануть поисковик. В результате эти сайты получали несколько дополнительных кликов от людей, желавших купить автомобиль, но отвлекшихся на порно. – Прим. авт. *Sergey Brin and Larry Page, «The Anatomy of a Large-Scale Hypertextual Web Search Engine» («Анатомия крупномасштабной гипертекстовой поисковой системы»), 7-я Международная конференция, посвященная Всемирной сети, 14–18 апреля 1998 года, Брисбен, Австралия.
.
Брин и Пейдж нашли способ фиксировать новый тип информации, который был гораздо ценнее, чем простой подсчет слов. Нередко в публикуемых на сайтах статьях даются ссылки на другие ресурсы, которые могут быть полезными для понимания обсуждаемого вопроса. Например, если в статье в электронной версии «Нью-Йорк Таймс» упоминается Билл Клинтон, то читатели, кликнув на его имя, перейдут на официальный сайт Белого дома.
Каждый ресурс, создающий одну из таких ссылок, в некотором смысле, демонстрирует свою точку зрения на информацию по Биллу Клинтону. Брин и Пейдж сумели объединить все эти точки зрения на каждую тему. Их поисковик мог собрать мнения «Нью-Йорк Таймс» [57] Хорошее обсуждение этого вопроса можно найти в Steven Levy, « In the Plex: How Google Thinks, Works, and Shapes Our Lives» («Как Google думает, работает и определяет нашу жизнь»), Нью-Йорк: Саймон и Шустер, 2011.
, миллионы рассылок, сотни мнений блогеров и все остальное, что есть в интернете. Поскольку множество людей считают, что самая релевантная ссылка по запросу «Билл Клинтон» – его официальный сайт, его большинство людей и ищут, набирая слова «Билл Клинтон».
Подобные ссылки были теми данными, которые не учитывали другие поисковые системы. Эти данные были невероятно предиктивны и определяли наиболее полезную информацию на заданную тему. Дело в том, что доминирование Google среди поисковых систем определяется не просто сбором большего количества данных, чем остальные – оно зиждется на нахождении более качественных данных. Меньше чем через два года после своего запуска компания Google, анализируя ссылки, стала самой популярной поисковой системой в интернете. Сегодня Брин и Пейдж вместе стоят больше 60 миллиардов долларов.
И Google, и все остальные поисковые системы пытаются использовать данные, чтобы помочь нам понять окружающий мир. Революционная суть больших данных не в том, чтобы собирать все больше и больше сведений. Она в том, чтобы собирать только нужные.
Но интернет – не единственное место, где можно собрать новые факты и где получение правильных данных может иметь революционные результаты. Эта книга во многом о том, как сведения из интернета способны помочь нам лучше понимать людей. В следующем подразделе, однако, мы не будем заниматься интернет-данными. Это даже не будет иметь ничего общего с людьми. Но описанная там история поможет проиллюстрировать основную идею этой главы: огромную ценность новых, нетрадиционных данных. И принципы, которым мы можем научиться на этом примере, помогут нам понять суть опирающейся на цифровую базу революции в области данных.
Летом 2013 года гнедой конь выше среднего роста с черной гривой стоял в деннике в небольшом сарае в штате Нью-Йорк. Он был одним из 152 однолеток, предназначенных для августовской продажи в Саратога-Спрингс, и одним из 10 тысяч годовалых лошадей, выставленных на аукцион в этом году.
Состоятельные мужчины и женщины, готовые раскошелиться и выложить огромные деньги за лошадь, хотят самостоятельно выбрать ей имя. В результате гнедой конь тогда еще не имел клички и, как и большинство лошадей на аукционе, вместо этого назывался по номеру денника – 85.
Чтобы выделить № 85 на этом аукционе, почти ничего не делалось. У него была хорошая родословная, но не исключительная. Его отец Pioneer of the Nile был хорошей скаковой лошадью, но другие дети Pioneer of the Nile не добивались особых успехов на скачках. Имелись и сомнения, основанные на экстерьере № 85: у него была царапина на лодыжке, отпугивавшая озабоченных покупателей, поскольку могла быть свидетельством травмы.
Читать дальше
Конец ознакомительного отрывка
Купить книгу