Но существует серьезная проблема. Некоторые, пытаясь обмануть поисковые механизмы, делают так, чтобы адреса их веб-сайтов располагались в списках результатов как можно выше. Поисковая система должна выиграть эту кибервойну: она должна стать «умнее» всех этих «хитрых» веб-сайтов.
– Доводилось ли вам сталкиваться с адресами порносайтов па страницах с результатами поиска? Те, кому доводилось, поднимите руки! – предложил Пейдж. – О, некоторые признались. На самом деле это большая проблема для поисковиков. Дельцов, стремящихся заработать любой ценой, мало волнует, какую информацию вы ищете, их вообще мало что волнует. Они просто хотят, чтобы на их веб-страницы заходило как можно больше пользователей.
Сформулировав проблему, Пейдж заметил, что он уже работает над возможными путями ее решения. Наиболее эффективным из них представляется разработка программы определения степени важности веб-сайтов, которая не позволит их операторам манипулировать поисковой системой. Google, ориентированная исключительно на пользователя, обеспечит наличие только релевантных адресов на страницах с результатами поиска.
Пейдж не преминул пустить пару критических стрел в адрес других поисковых систем:
– Поисковые механизмы функционируют отнюдь не блестяще. Если вы наберете, скажем, слово «AltaVista» в строке запроса другой поисковой системы, получите ли вы адрес главной страницы сайта AltaVista? Скорее всего, нет. А вот на Google вы гарантированно получите его в числе первых результатов. Всю соответствующую работу мы делаем сами. Объемы очень большие.
Ключевым принципом разработчиков Google стало разбиение сложных задач на отдельные подзадачи, которыми можно было бы заниматься параллельно. С помощью соответствующих математических уравнений и множества компьютеров ребята создали что-то вроде производственной линии для сбора, занесения в индекс и представления информации, руководствуясь при этом законом Мура, что позволяло приобретать компьютерное оборудование с меньшими затратами.
– Мы ползаем по Всемирной паутине – то есть заходим туда и загружаем весь Интернет. Мы загружаем приблизительно по сто страниц в секунду, – сообщил Пейдж. – Процесс этот довольно сложен. Все загруженные копии веб-страниц мы сохраняем на жестких дисках компьютеров, они нам нужны для анализа. Веб-страницы хранятся почти на всех компьютерах в нашей комнате.
Ларри рассказал о новшестве, обеспечившем Google превосходство над другими поисковыми машинами. Профессора и студенты Стэнфорда не пропускали ни слова.
– Когда в строке запроса набрано не одно слово, а словосочетание, наша система анализирует расстояние между словами <���на скопированной веб-странице>. Для этого в соответствующую программу мы ввели систему уравнений. В другие поисковые системы заложен более примитивный подход, и потому они не в состоянии поспевать за темпами расширения Сети. На их фоне Google с ее программным обеспечением, позволяющим загружать веб-страницы максимально оперативно, явно выделяется. Если вы хотите набрать больше материала, вам просто нужно «ползать» по большему количеству сайтов. Как видите, все очень просто.
Ларри и Сергей раскрыли далеко не все технические подробности функционирования PageRank и Google: в аудитории вполне могли быть «шпионы» из других компаний, и ребятам, понятное дело, не хотелось, чтобы кто-либо воспользовался плодами их трудов.
По мнению Брина, настал момент несколько оживить презентацию. «Ползание» по Интернету и индексация веб-страниц – чисто технический процесс, сказал он, однако на самом деле все отнюдь не так просто, как кажется. Дело в том, что некоторые владельцы веб-сайтов считают их «паука» незваным гостем.
– Вообще-то, мы получаем огромное удовольствие от ползания по Сети, – сказал Брин. – Вступая в контакт с миллионом веб-сайтов, вы вступаете в контакт с миллионом людей – веб-мастерами этих сайтов. Представьте, что вам нужно обойти миллион квартир, чтобы предложить их обитателям свой электронный адрес. Каковы ваши шансы остаться целым и невредимым, если вы будете заниматься этим, скажем, в не самых фешенебельных районах Оукленда?
Отдельные «ненормальные» веб-мастера, недовольные вмешательством «паука» Google в работу их сайтов, в отместку забрасывали электронные ящики компании спамом или грозились подать в суд.
– Они заявляли, что подадут на нас в суд, а мы спустя какое-то время блокировали все веб-сайты Монтаны. А как-то мы даже блокировали весь Сингапур… Правда, время от времени эти веб-мастера обращаются к ответственному за управление рисками в Стэнфорде – а мы даже и не знали, что у нас такой есть. Теперь-то мы знаем, мы с ним пообщались пару раз. В общем, проблем не оберешься.
Читать дальше