Как продвигать сайты при ныне действующем алгоритме «Яндекса» MatrixNet? Ведь если степень влияния того или иного фактора меняется в зависимости от региона и запроса, нельзя точно знать, как действовать. Неужели только методом проб и ошибок?
Сергей Людкевич: Нужно учитывать следующие свойства запроса:
• коммерческий или некоммерческий характер;
• регион;
• геозависимость или геонезависимость.
Именно по перечисленным параметрам алгоритмы существенно разнятся. Например, для коммерческих запросов все еще вполне неплохо работают коммерческие ссылки. Для некоммерческих они практически бесполезны. Но сайты все — таки, как правило, продвигаются именно по коммерческим запросам.
Гораздо острее ситуация в случае с региональностью запросов. В разных регионах
– различные алгоритмы (формулы) для геозависимых запросов. Отдельно для Москвы, отдельно для Санкт — Петербурга, отдельно для каждого из городов релиза «Арзамас+16», отдельно для всех остальных – так называемая общероссийская выдача с бонусом для сайтов из данного региона. А все геонезависимые запросы ранжируются общероссийским алгоритмом. Он очень сильно отличается от алгоритма для Москвы и от алгоритмов для городов релиза «Арзамас+16». Все это, естественно, вносит дополнительные сложности в продвижение. Ну а метод проб и ошибок всегда был на вооружении у оптимизаторов.
Формула для остальных регионов не учитывает множества факторов или их значимость очень мала, правильно? Это сделано скорее потому, что в регионах еще не настолько сильная конкуренция и сами сайты недостаточно хороши или же просто невозможно за всеми уследить?
С. Л.: Я не думаю, что формулы для регионов не учитывают каких — то факторов, которые, к примеру, есть в формуле для Москвы. Скорее всего, они строятся по другой обучающей выборке с преобладанием сайтов данного региона.
За несколько лет существования в MatrixNe добавилось множество новых факторов. А поменялся ли сам алгоритм? Если да, то как?
С. Л.: Суть текущего подхода «Яндекса» к построению алгоритма ранжирования – машинное обучение. MatrixNe был революционным в том смысле, что позволил без больших вычислительных затрат учитывать в ранжировании существенно больше факторов, чем предыдущий алгоритм машинного обучения. Вместе с тем факторы добавляются, но машинное обучение как таковое остается. Гораздо более значимая революция совершилась во времена релиза «Магадан» (или чуть раньше), когда произошел переход от аналитической формулы к машинному обучению.
Но, кроме построения формулы с помощью машинного обучения, есть куча предфильтров и постштрафов: создаются новые, модифицируются старые. Развитие алгоритма на текущий момент, с моей точки зрения, заключается преимущественно в создании «костылей» и «подпорок» к тому, что выдало машинное обучение. Дело в том, что в результате машинного обучения получается формула, не имеющая физического смысла. И трудно понять, что нужно подправить на входе, чтобы на выходе получались осмысленные результаты. Поэтому кое — что приходится править с помощью надстроек – фильтров и штрафов.
Оптимизаторы часто слышат о появлении новых факторов ранжирования сайтов. А какие факторы ушли в прошлое? На что «Яндекс» перестал обращать внимание?
С. Л.: Например, на содержимое метатега keywords, учет которого имел место в начале 2000 — х. А если серьезно, дело в том, что алгоритм машинного обучения может счесть часть факторов незначащими и присвоить им в конечной формуле нулевые веса. Сегодня набор незначащих факторов будет одним, завтра, после пересчета формулы по новой обучающей коллекции, другим. Наверняка разработчики отслеживают, какие факторы остаются незначащими на протяжении нескольких пересчетов, и впоследствии принимается решение об их физическом исключении из алгоритма. Но извне достоверно определить, с каким весом тот или иной фактор участвует в формуле, практически невозможно.
Предположим, наша задача – проверить влияние того или иного фактора. Как правильно поставить эксперимент, чтобы не принять совпадение за тенденцию? Каким должен быть объем выборки?
С. Л.: Многое зависит от того, какой именно фактор вы собираетесь исследовать. И есть ли вообще он в алгоритме. Увы, сейчас проверить влияние большинства факторов нельзя ввиду невозможности убрать шум, даже если вы наверняка знаете, что представляет собой тот или иной фактор. Дело в том, что для чистой проверки работы одного фактора необходимо зафиксировать все остальные, включая временные. Иначе говоря, создать достаточное количество одинаковых тестовых страниц, которые будут различаться между собой значением одного — единственного изучаемого фактора, практически полных копий. Но зачастую и этого мало, так как результат может зависеть от комбинации искомого фактора с каким — то другим, причем вам неизвестно каким. И при разных значениях второго фактора исследуемый будет вести себя по — разному. Также нужно понимать, что, изменяя значение проверяемого фактора, вы можете изменить значение других факторов, которые вы обязаны зафиксировать. Все это сильно зашумляет эксперимент, обычно приводя к недостоверности результатов. Те же факторы, которые поддаются проверке с достаточной степенью достоверности, должны быть настолько мощными, чтобы шум не мешал их анализу. Пример – кликовые факторы.
Читать дальше