Пример
Запросов за месяц: архитектурный — 33 779, проект — 273 903, жилого — 26 366, дома — 1 062 700.
А что бывает, когда вы ошиблись в написании слова? Мы уже говорили, что Яндекс использует при обработке запроса морфологический анализ. В результате он способен определить, что вы написали слово с ошибкой и предложить свой вариант. Например, если в нашем примере вместо слова проект мы напишем прокт, Яндекс предложит нам корректный вариант, снабдив его предположением, не опечатка ли это. Впрочем, не всегда следует пользоваться этими подсказками. В некоторых случаях некорректное написание слова было выполнено специально. К примеру, всем известно слово "агентство", но не все пишут его правильно. Очень часто это слово пишут так: агенство (по информации Яндекса, в его Индексе это слово с ошибкой встречается 7 783 366 раз, а количество запросов за месяц составило 152 952.) Если вести поиск по правильному написанию, то документы, где слово написано с ошибкой, в результаты поиска не попадут.
Есть и другие случаи, когда Яндекс воспринимает правильно написанное слово иначе, предлагая другой вариант. По всей видимости, критерием "правильно-неправильно" в данном случае служит частота употребления слова. Поэтому редко встречающиеся слова, похожие на часто употребительные, могут быть восприняты как написанные с ошибкой.
Но, конечно, далеко не всегда Яндекс может правильно определить, какое слово было задумано посетителем.
Пример
Посетитель написал слово колеки, вместо того, чтобы написать калеки. Яндекс, подумав, решил, что должно было быть написано слово колени. С точки зрения Яндекса предложенное им слово находится ближе к исходному, чем первоначально задуманное посетителем.
В том случае, если на ваш запрос ничего не было найдено, Яндекс предложит вам повторить поиск. К примеру, если поисковое выражение стояло в кавычках, будет предложено выполнить аналогичный поиск, но кавычки убрать.
Орфографическая проверка
Предположение о том, что слово в строке поиска набрано неверно, строится не на пустом месте. Определить корректность написания слов помогает орфографический словарь либо статистика написания слова, полученная в результате индексирования интернет-страниц. Однако в наши дни новые слова, названия компаний, фамилии людей появляются не по одному каждый день, и уследить за ними одному Яндексу было бы проблематично. Создать словарь, в который были бы занесены все слова русского языка, и, самое главное, поддерживать его в актуальном состоянии, не сможет ни одна команда, как бы подготовлена и обеспечена она ни была. Зачастую слова приходят из других языков, совершенно не соответствуют правилам русского языка, нечитаемые и непроизносимые. При появлении таких слов в запросах Яндекс ранее предлагал их исправить, предполагая, что человек допустил опечатку.
В 2005 году был запущен новый алгоритм, участвующий в разборе и анализе таких ситуаций. Его цель — создание словаря исправлений. Запросы пользователей собираются и анализируются, обрабатывается статистика. Если оказывается, что по какому-то слову есть много вариантов исправлений, то из кластера выбирается похожее слово из числа наиболее распространенных в Интернете. Таким образом, появляется база пар "плохих" и "хороших" слов — слов с ошибками и исправленных, и каждое слово в запросе пользователя теперь проверяется по такому "народному" словарю. Набранная статистика позволяет отбирать наиболее употребляемые варианты написания слов, за счет чего и происходит поддержка орфографического словаря.
Транслитерация
Слова могут быть написаны с ошибкой, которую вы можете не заметить. Например, если в слове встречаются символы русского и английского алфавита, близкие по начертанию. Например, в слове "передача" первая буква "а" была взята из английского алфавита. Яндекс "с удовольствием" принял запрос, заменил некорректную букву на русскую "а" и в результатах поиска представил документы, содержащие корректное написание слова "передача". Самое интересное все же в том, что в этом же списке результатов могут присутствовать и документы, в которых ключевое слово написано именно так, как в вашем запросе. Аналогичным образом конвертируются слова, содержащие хотя бы одну русскую букву.
Конвертируются следующие буквы (полужирным выделены английские): e— е — ё, a— а, В— В (только прописные), c— с, g— д (только строчные), k— к, n— п (только строчные), o— о, p— р, u— и (только строчные), x— х, y— у.
Читать дальше
Конец ознакомительного отрывка
Купить книгу