1998
Именно в этом году возникла очередная поисковая машина, которой было суждено если не перевернуть представления о поиске, то, во всяком случае, показать миру, какой потенциал таит в себе эта отрасль. Большая цифра – единица со ста нулями – называется по-английски Googol (гугол). После небольшой обработки напильником это слово превратилось в Google. Согласно официальной легенде, название отражает стремление компании организовать и упорядочить сколь угодно большие объемы информации.
«Гугл» был основан выпускниками Стэндфордского университета Ларри Пэйджем (Larry Page) и выходцем из России Сергеем Брином. Разработка началась еще в 1996 году – именно тогда были заложены основы системы PageRank – алгоритма расчета авторитетности страницы. Система была основана на подсчете количества и «веса» ссылок, ведущих на тот или иной ресурс. Создатели Google предположили, что на интересный, полезный или популярный сайт ссылаться должны чаще, чем на скучный и одноразовый.
Первоначальные вложения в проект составили около 1 миллиона долларов. В сентябре 1998 года система, стартовавшая в статусе бета-версии, уже тогда обрабатывала десятки тысяч запросов в день. На поисковик обратили внимание интернет-гиганты AOL (купивший к тому времени портал Netscape) и Yahoo!. Каждый, в свою очередь, интегрировал поиск Google на свои порталы, и к концу 2000 года сервис обрабатывал до 100 миллионов (!) запросов ежедневно. (После обособления Yahoo! нагрузка снизилась, сегодня Google отвечает примерно на 50 миллионов запросов в день.)
Успех Google был во многом обусловлен качественным поисковым алгоритмом. Любая поисковая машина, разрастаясь, рискует стать свалкой. Сайты рождаются и умирают, их популярность изменяется, а кроме того, всем хочется всплыть на первую страницу результатов поиска, поэтому многие веб-мастера прибегают к так называемому «поисковому спаму» (о нем мы еще расскажем ниже). Задав один и тот же ключ поиска разным поисковым машинам, можно получить принципиально разные результаты, причем из года в год они могут изменяться еще более удивительным образом.
Если ранние поисковые машины просто индексировали все содержимое страницы, и особое внимание обращали на так называемые «метаописания», то Google действовал иначе. Его «движок» всегда игнорировал метаданные, ибо каждый охотник… то есть каждый неленивый веб-мастер писал туда все популярные ключи запросов в надежде увеличить стихийную, бесполезную, пусть даже чисто техническую посещаемость своего сайта.
Но хитрый Google анализирует всю страницу сайта, обращает внимание на размер и цвет шрифта, места расположения заголовков и текстовых абзацев, то есть, грубо говоря, моделирует в своем «мозгу» страницу, как ее увидел бы обычный пользователь, и сам расставляет на ней смысловые акценты.
Кроме того, Google подкупает пользователя простейшей и в меру забавной главной страницей: на ней нет ничего лишнего. Не стоит думать, что простота эта обусловлена ленью дизайнеров – за каждым элементом интерфейса сервисов Google стоят очень серьезные специалисты, и это приносит компании куда более значительные результаты, чем может показаться на первый взгляд.
Ты меня уважаешь?
Залог успеха Google – PageRank (сокращенно PR). Этот механизм обсчитывает важность той или иной страницы с точки зрения «мировой революции» (то есть в контексте всех других существующих страниц Интернета). PR высчитывается, исходя из количества ссылок на данную страницу, а также «веса» каждой ссылающейся страницы – зачастую ссылка с одного «важного» сайта окажется дороже ссылки с сотни, если не тысячи незначимых, спамерских. Таким образом, если вам пожал руку Пол Маккартни, с точки зрения Google вы будете куда авторитетнее человека, которому пожали руку сто человек по имени Павел Макаров – как-то так.
Кстати, ссылки с сайтов, специально предназначенных только для ссылок, Google фильтрует. PR специально накручиваемых сайтов может раз и навсегда обнулиться. Сайты, которые будут ссылаться на «проштрафившиеся» ресурсы с PR=0, также могут быть оштрафованы – «по подозрению в преступном сговоре». Google рекомендует: семь раз подумать и один раз сослаться.
Поиск в Google можно описать следующим алгоритмом:
1) отбираются все страницы, в которых содержатся искомые слова;
2) страницы сортируются по текстовым критериям («всплывают» страницы, на которых искомая фраза встречается чаще и точнее);
3) производится поиск в тексте ссылок на каждый сайт;
Читать дальше