Не всегда сразу становится очевидным, как решить некоторые проблемы поиска одним лишь только ранжированием. В какой-то момент лучшим результатом для запроса «Глейшер-Бей», определенным при помощи алгоритма, оказался сайт компании Glacier Bay, производящей краны и раковины, а не одноименный национальный парк в США. Алгоритм сработал верно, потому как большинство людей переходили по ссылкам и искали сантехнические приборы Glacier Bay, но пользователи были бы очень удивлены, если бы парк вообще не отображался в топе поисковой выдачи.
Моя собственная компания O’Reilly Media столкнулась с аналогичной проблемой. Сайт компании O’Reilly Media (в то время еще звавшейся O’Reilly & Associates) был одним из самых первых в Интернете, и мы опубликовали много содержательного и высококачественного контента, который был особенно актуален для первых интернет-пользователей, поэтому у нас было много-много внешних ссылок. Это дало очень высокий показатель авторитетности страницы PageRank. В какой-то момент, на заре истории Google, кто-то опубликовал «алфавит Google» – лучший результат для поиска по одной букве. Моя компания оказалась под буквой О . Но как насчет компании O’Reilly Auto Parts, входящей в рейтинг 500 крупнейших мировых компаний Fortune 500? Ее не было даже на первой странице результатов поиска.
Какое-то время, пока они не придумали, как исправить алгоритм, корпорация Google разделяла такие страницы на две части. В случае с Glacier Bay национальный парк занял верхнюю половину страницы поисковой выдачи, а нижняя половина была отдана раковинам, туалетам и кранам. В случае с O’Reilly мы с Биллом O’Райли решили поделить между собой верхнюю часть страницы, в то время как компании O’Reilly Auto Parts досталась нижняя половина. В конце концов корпорация Google значительно улучшила алгоритмы ранжирования, чтобы результаты на странице чередовались.
Одним из факторов, требующих постоянной корректировки алгоритмов, является стремление создателей веб-страниц адаптироваться к системе. Ларри и Сергей предвидели эту проблему в своем оригинальном исследовательском докладе:
«Еще одно существенное различие между веб-сайтами и строго регламентированными традиционными системами сбора данных заключается в том, что нет практически никакого контроля за тем, что люди могут разместить в Интернете. Эта свобода публиковать все, что угодно, пока огромная сила поисковых систем распределяет трафик, при наличии компаний, которые намеренно манипулируют поисковыми системами для получения прибыли, порождает серьезную проблему».
Это было преуменьшением. Целые компании были созданы для того, чтобы обманывать систему. Многие из алгоритмов поиска Google были созданы в ответ на то, что получило название «интернет-спама». Даже когда интернет-издатели не использовали коварную тактику, они все чаще боролись за улучшение своего рейтинга. «Поисковая оптимизация», или SEO, стала новым направлением. Консультанты, знающие передовые практики, советовали клиентам, как структурировать их веб-страницы, как сделать так, чтобы веб-документ содержал ключевые слова, и как выделить их надлежащим образом, объясняли, почему важно, чтобы на него ссылались существующие высококачественные сайты, и многое другое.
Существовали также и «черные методы» поисковой оптимизации – создание сайтов, которые намеренно обманывают поисковых роботов и нарушают условия их работы. «Черные методы» оптимизации включали в себя наполнение веб-страницы невидимым текстом, который поисковик может прочитать, а человек нет, а также создание множества «контент-ферм», представляющих собой алгоритмически сгенерированный контент низкого качества, отвечающий всем правильным критериям поиска, но содержащий мало полезной информации, которая действительно заинтересовала бы пользователя, и страницы перекрестных ссылок для создания видимости активности и интереса людей. Корпорация Google внедрила множество обновлений для алгоритмов поиска, предназначенных специально для борьбы с подобным спамом. Борьба с плохими игроками неизбежна для любого широко используемого онлайн-сервиса.
Однако у корпорации Google было одно огромное преимущество в этой битве: особое внимание она уделяла интересам пользователей, что нашло отражение в качественной релевантности. В своей книге 2005 года «The Search» Джон Баттел назвал Google «базой намерений». Веб-страницы могут использовать скрытые методы, чтобы попытаться улучшить свое положение, – и многие так и делали, – но корпорация Google постоянно стремилась соответствовать простому золотому стандарту: то ли это, что хочет найти пользователь?
Читать дальше