Использование функциональности для поиска всех страниц, связанных с ключевым словом, является архитектурой, позволяющей экономить время, поскольку для поиска всех веб-страниц по ключевому слову в режиме реального времени каждый раз, когда кто-то ищет его, потребуется слишком много времени.
Не все просканированные страницы останутся в поисковом индексе по разным причинам. Например, если страница содержит метатег robots с директивой «noindex», он указывает поисковой системе не включать страницу в индекс.
Точно так же веб-страница может включать X-Robots-Tag в свой HTTP-заголовок, который указывает поисковым системам не индексировать страницу.
В других случаях канонический тег веб-страницы может указать поисковой системе, что страница, отличная от текущей, должна считаться основной версией страницы, в результате чего другие, неканонические версии страницы будут исключены из индекса.
Google также заявил, что веб-страницы не могут быть сохранены в индексе, если они имеют низкое качество (страницы с повторяющимся содержанием, страницы с недостаточным содержанием и страницы, содержащие полностью или слишком много нерелевантного контента).
Также существует долгая история, которая предполагает, что веб-сайты с недостаточным коллективным рейтингом PageRank могут не индексировать все свои веб-страницы – предполагая, что более крупные веб-сайты с недостаточным количеством внешних ссылок могут не быть тщательно проиндексированы.
Недостаточный краулинговый бюджет также может привести к тому, что веб-сайт не проиндексирует все свои страницы.
Важным компонентом SEO является диагностика и исправление случаев, когда страницы не индексируются. По этой причине рекомендуется тщательно изучить все различные проблемы, которые могут ухудшить индексацию веб-страниц.
РЕЙТИНГ
Ранжирование веб-страниц – это этап обработки поисковыми системами, которому, вероятно, уделяется наибольшее внимание.
Как только поисковая система получает список всех веб-страниц, связанных с определенным ключевым словом или ключевой фразой, она должна определить, как она будет упорядочивать эти страницы при выполнении поиска по ключевому слову.
Если вы работаете в сфере SEO, вы, вероятно, уже хорошо знакомы с тем, что включает в себя процесс ранжирования. Процесс ранжирования поисковой системы также называют «фильтрацией», или «индексацией».
Сложность, связанная с стадией ранжирования поиска, настолько велика, что одна только она заслуживает описания в нескольких книгах.
Критериев, влияющих на ранжирование веб-страницы в результатах поиска, очень много. Сигналы, которые Google снимает с веб-страницы, исчисляются тысячами. Сигнала собраны в группы, которые будем называть векторами или алгоритмами. А алгоритмы сгруппированы в фильтры.
Например, наибольшее количество алгоритмов ранжирования собраны в фильтры, такие как PENGUIN, HUMMINGBIRD и POSSUM.
PageRank – это самая ранняя версия фильтра ранжирования Google, изобретенная в 1996 году. Он был построен на концепции, согласно которой ссылки на веб-страницу – и относительная важность источников ссылок, указывающих на эту веб-страницу, – могут быть рассчитаны для определения относительной силы ранжирования страницы, на все остальные страницы.
Метафора для этого заключается в том, что ссылки в некоторой степени рассматриваются как голоса, и страницы с наибольшим количеством голосов будут занимать более высокое место в рейтинге, чем другие страницы с меньшим количеством ссылок/голосов.
Перенесемся в 2022 год, и большая часть ДНК старого алгоритма PageRank все еще встроена в алгоритм ранжирования Google. Этот алгоритм анализа ссылок также повлиял на многие другие поисковые системы, которые разработали аналогичные методы.
Старый метод алгоритма Google должен был итеративно обрабатывать ссылки в Интернете, передавая значение PageRank между страницами десятки раз, прежде чем процесс ранжирования был завершен. Эта итеративная последовательность вычислений на многих миллионах страниц может занять почти месяц.
В настоящее время новые ссылки на страницы вводятся каждый день, и Google рассчитывает рейтинг своего рода капельным методом, что позволяет учитывать страницы и изменения гораздо быстрее, не требуя месячного процесса расчета ссылок.
Кроме того, ссылки оцениваются сложным образом – отзыв или снижение ранжирования платных ссылок, проданных ссылок, заспамленных ссылок, ссылок, не одобренных, и т. д.
Читать дальше