Пейдж изобрел новаторский подход к такой сортировке и с присущей компьютерным гикам склонностью к игре слов назвал его PageRank [66] Фамилия Пейдж (Page) в переводе с английского означает «страница». Прим. пер.
. Большинство компаний, занимавшихся интернет-поиском в то время, сортировали страницы по ключевым словам и едва ли могли оценить, насколько первые соответствуют вторым. В статье, опубликованной в 1997 году, Брин и Пейдж сухо отмечали, что три из четырех крупнейших поисковых машин не могут найти сами себя. «Мы хотим, чтобы наша концепция "релевантности" распространялась только на лучшие документы, — писали они, — поскольку пользователю могут быть доступны десятки тысяч лишь слегка релевантных документов» [67] Sergey Brin and Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 1.3.1.
.
Пейдж понял, что в пронизанной ссылками структуре Сети кроется гораздо больше данных, чем могут использовать большинство поисковых машин. Тот факт, что одна страница содержит ссылку на другую, можно считать «голосом» в пользу второй. Пейдж наблюдал за тем, как стэнфордские профессора считают, сколько раз их статьи были процитированы, и составляют таким образом примерный рейтинг своей значимости. Он прикинул, что сайты, на которые часто ссылаются — например, главная страница Yahoo, — могут, подобно академическим статьям, считаться более значимыми, а те, за которые они «голосуют», тоже значат больше. Весь этот процесс, как утверждал Пейдж, «опирается на уникальную демократическую структуру Сети».
В те дни Google обитал на сайте google.stanford.edu, и Брин с Пейджем были убеждены, что сервис должен оставаться некоммерческим и свободным от рекламы. «Мы считаем, что поисковые машины, финансируемые за счет рекламы, будут неизбежно склоняться в сторону нужд рекламодателей, а не нужд потребителей, — писали они. — Чем лучше поисковая система, тем меньше сообщений понадобится потребителю, чтобы найти искомое… мы уверены, что вопрос о рекламе создает достаточно неоднозначные стимулы, и поэтому крайне важно иметь конкурентоспособную поисковую систему, которая прозрачна для пользователей и остается в академической сфере» [68] Brin and Page. Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 8 Appendix A.
.
Но когда они запустили бета-версию сайта на просторы Интернета, трафик зашкалил. Google действительно работал — внезапно он стал лучшей поисковой машиной Интернета. Вскоре искушение сделать на этом бизнес оказалось слишком сильным, и основатели Google, которым было по двадцать с небольшим, не смогли перед ним устоять.
По легенде, именно алгоритм PageRank вознес Google на вершину мирового господства. Я подозреваю, что компании нравится эта версия: это ясная, простая история, привязывающая успех поискового гиганта к одному гениальному прорыву, совершенному одним из основателей. Но с самого начала PageRank был лишь малой частью проекта Google. На самом деле Брин и Пейдж поняли вот что: ключ к релевантности, к сортировке массы данных в Интернете — это… еще больше данных.
Брину и Пейджу был важен не только сам факт, что страница ссылается на другую. Позиция ссылки, ее размеры, возраст страницы — все эти факторы имели значение. С годами Google стал называть эти путеводные нити, скрытые в данных, «сигналами».
С самого начала Пейдж и Брин понимали, что важнейшие сигналы будут поступать от самих пользователей поисковика. Скажем, если кто-то ищет «Ларри Пейдж» и кликает на вторую ссылку в результатах, это тоже «голос»: он подсказывает, что вторая ссылка более релевантна, чем первая. Они назвали это «клюс-сигналами» (click signal). «Очень интересными будут исследования, — писали Пейдж и Брин, — в основу которых лягут огромные объемы данных об использовании современных веб-систем… весьма трудно получить эту информацию, прежде всего потому, что она предположительно имеет коммерческую ценность» [69] Brin and Page. Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 1.3.2.
. Вскоре в их руках оказалось одно из крупнейших в мире хранилищ таких данных.
По части информации Google был ненасытен. Брин и Пейдж намеревались сохранять все: каждую страницу, на которую когда-либо заходила поисковая машина, каждый клик каждого пользователя. Вскоре их серверы уже хранили копию большей части Интернета, обновляемую практически в режиме реального времени. Они были уверены, что, просеивая данные, найдут еще больше зацепок, еще больше сигналов, позволяющих уточнять результаты. Отдел качества поиска Google завоевал репутацию местного спецназа: минимум посетителей, абсолютная секретность — таковы были правила его работы [70] Saul Hansell. Google Keeps Tweaking its Search Engine. New York Times, June 3, 2007, http://www.nytimes.com/2007/06/03/business/yourmoney/03google.html?_r=l.
.
Читать дальше