Другой аспект. Везде, на сайтах разработчиков CMS, на сайтах специалистов по безопасности, в очень многих серьезных источниках по SEO, выложены чек — листы по 20 – 30 пунктов, описано, чего не надо делать, какие технические погрешности на вашем сайте могут привести к наказанию со стороны поисковых машин. В 90 % случаев именно нарушение чисто технических требований и приводит к наказанию сайта, несмотря на то что разработчики сайта все это читали и вроде бы понимают: не нужно плодить дубли, надо закрывать от поисковых роботов все технические страницы, результаты сортировки, профили – все то, что не несет информации, релевантной содержанию сайта.
Беда в том, что если вы все перечисленное без задней мысли проделаете, то потеряете четыре пятых трафика, который у вас идет на эти паразитные страницы. Снова бросаемся с головой в информационный шум, выныриваем оттуда вот с такими глазами, с полной уверенностью в том, что чем больше у нас проиндексированных страниц на сайте, тем лучше он проиндексирован, чем больше трафик на сайт льется, тем круче. Да, если ваш сайт – СМИ и вы с трафика продаете рекламу, без вопросов. А если вы торгуете шинами или бриллиантами и добились того, что на ваш сайт в поисках бриллиантов заходит 50 тыс. человек в день? Чтобы радоваться этому – извините, господа, – надо быть полным глупцом! Потому что бриллиант и даже автомобильные шины – это не тот товар, который можно продать 50 тыс. покупателям. Значит, у вас столпится такая куча народа, что вы его не продадите.
Еще раз: не плодим дубли, категорически закрываем от индексации все технические страницы, в строгом соответствии с рекомендациями в «Яндексе» и Google составляем robots.txt. На 95 % сайтов, аудит которых я проводил, robots.tx был написан с синтаксическими (что не страшно, в общем — то) или фактическими ошибками. За последние два года мне три раза приходилось сталкиваться с тем, что сайт вылетал из индекса, поскольку веб — мастер нечаянно запретил индексацию сайта в файле robots.txt, просто написав строку Allow без параметров, подумав, что она разрешает индексировать на сайте.
Смотрим, чтобы было с robots.txt. В обязательном порядке проверяем, что выдает наш сервер в ответ на запрос браузера. Если ваш сервер отвечает – типичная ситуация, – что срок валидности опубликованного материала истек 1 января 1980 года, то ни о каком регулярном и системном посещении вашего сайта поисковыми роботами и речи нет. Вы можете прописать в sitemap все параметры как положено, однако, если робот увидит эту запись в коде ответа сервера, он ваш sitemap проигнорирует. Пустячок, но я сам был свидетелем того, как новостной сайт нормально не индексировался. После того как в полях, касающихся модификации публикаций, появились валидные даты, возникла валидная дата истечения cookie, сайт взлетел просто за счет того, что робот стал заходить практически секунда в секунду с публикуемым материалом. Грубо говоря, вы делаете технически правильный сайт и потом не платите мне 30 тыс. за то, чтобы я вам сказал: «Исправьте эту строчку в robots.tx или закройте с помощью noindex технические страницы».
К слову о noindex. Он позволяет закрыть часть страницы от индексации. Проглядываю сайт, и каждое второе предложение – в noindex. Спрашиваю у владельца сайта:
– Что это такое у тебя?
– А это я придумал такой очень хороший способ уникализации текста!
– Как так?
– Вот «Яндекс» это предложение читает, это предложение читает, это предложение, и вроде как текст уникальный.
– Да «Яндекс» у тебя все прочитает, понимаешь?
Noindex – это «не помещать в индекс», это не значит «нельзя читать, нельзя анализировать». Это значит «прочти, проанализируй, но не помещай в индекс». На сайте «Яндекса» четко все написано в «Помощи», двоякие толкования исключены.
Очень серьезная контора, имеющая десятки сайтов по всему бывшему СССР Специфика компании вынуждает одни и те же позиции товара по 50, по 100 раз на одной странице приводить. В какой-то момент сайт перестает нормально индексироваться, все рушится, из индекса тоже много вылетает. Когда я проверяю сайт, в первую очередь смотрю robots.txt, потом код страницы. Открываю совсем небольшую страничку – там 150 раз noindex.
– А что это, господа?
– Понимаете, у нас слово «насос» встречается 150 раз, и мы подумали, что «Яндекс» это сочтет спамом. Только один «насос» оставили, а все остальные забрали в noindex, чтобы поисковик их не прочитал.
Во — первых, «Яндекс» никогда прайс — лист, табличку не сочтет спамом. Он не дурак и распознает, где у вас прайс — лист, а где текст, насыщенный спамом. Он это начал понимать лет десять назад. Во — вторых, если на сайте 50 тыс. страниц и на каждой надо обработать тег по 150 раз, это же какие вычислительные мощности потребуются. В конце концов, либо роботу самому «надоело», либо человек зашел, увидел 150 noindex, у него глаза из орбит вылезли, он – чпок! – нажал кнопку.
Читать дальше