Дзен:медитативный поиск (на основе запросов пользователей к «Яндексу» в реальном времени) — http://сompany.yandex.ru/researсhes/interes.
Поиск«Яндекса» позволяет искать документы на русском, татарском, украинском, белорусском, казахском, турецком, английском, немецком и французском языках с учетом морфологии этих языков и близости слов в предложении.
Индексирование:помимо веб-страниц в формате HTML, «Яндекс» индексирует документы в форматах PDF (Adobe Aсrobat), Riсh Text Format (RTF), двоичных форматах Word (.doс), Exсel (.xls), PowerPoint (.ppt), RSS (блоги и форумы).
Поиск и сервисыподдерживаются в России, Украине, Беларуси, Казахстане, Турции.
Самый узнаваемый рекламный слоган:«Найдется все».
Все о компании: http://company.yandex.ru, http://yandex-team.ru.
Антиспам поисковый— набор алгоритмов, позволяющих отделить спам от качественных веб-страниц. С помощью алгоритмов антиспама «Яндекс» проверяет все сайты, которые индексирует. А уже проиндексированные страницы регулярно перепроверяет, чтобы убедиться, что на них не появился спам. Страницы, содержащие спам, могут быть понижены при ранжировании или исключены из поиска. Об этом говорится в лицензии на использование поисковой системы «Яндекс».
Архитектура продукта— структура программы или вычислительной системы, которая включает программные компоненты, видимые снаружи свойства этих компонентов, а также отношения между ними.
Асессоры— специалисты, оценивающие релевантность страницы тому запросу, по которому она была представлена в результатах поиска; основная задача асессора — улучшение качества выдачи; асессоры, оценивая сайт, смотрят и на его содержание, и на раскрытие тематики, и на удобство использования ресурса; асессоры не только оценивают релевантность документа запросу, но и помогают настраивать алгоритмы поисковой системы.
Бета-тестирование— распространение новой версии (бета-версии) продукта или сервиса, платформы среди ограниченного числа пользователей.
Браузер— программное обеспечение для просмотра сайтов, то есть для запроса веб-страниц (преимущественно из Сети), их обработки, вывода и перехода от одной страницы к другой.
Движок— выделенная часть программного кода для реализации конкретной прикладной задачи — программа, часть программы, комплекс программ или библиотека, в зависимости от задачи и реализации. Использование готового движка при разработке программы, сайта или другого продукта сокращает время разработки, позволяет уделить больше времени разработке других подсистем.
Дистрибутив(дистрибутивная копия) — копия программного продукта, предназначенная для распространения (бесплатного или платного) и установки пользователем. В большинстве случаев — установочная архивированная версия программного продукта.
Детектировать(от англ. detect) — замечать, открывать, обнаруживать, раскрывать.
Интерфейс— часть программы, взаимодействующая с пользователем, посредством него приложение получает доступ к операционной системе и другим сервисам.
Код— написанный человеком текст компьютерной программы на каком-либо языке программирования.
Колдунщики— информационные блоки в результатах поиска с ответами от сервисов «Яндекса».
«Матрикснет»(MatrixNet) — метод машинного обучения, с помощью которого строится формула ранжирования поиска «Яндекса», которую теперь можно настраивать отдельно для достаточно узких классов запросов. Например, локализовать поиск для региональных пользователей.
Машинное обучение— попытка научить компьютер решать задачи, которые легко даются человеку, но формализовать путь их решения сложно. В результате машинного обучения компьютер может демонстрировать поведение, которое в него не было явно заложено.
Морфология(от греч. morhpe — форма, logos — учение) — изучает слова как части речи с точки зрения их грамматических свойств, это наука о правилах словоизменения и словообразования. Основа морфологии: корень, суффикс, приставка, окончание (или флексия — самая большая головная боль разработчиков русскоязычных поисковиков), которое способно меняться в зависимости от рода, числа и падежа. Морфология русского языка еще в 1970-х гг. была исчерпывающе описана Андреем Анатольевичем Зализняком, будущим академиком Российской академии наук. Результатом этого научного прорыва стали базовые труды для русской морфологии — «Русское именное словоизменение» (1967) и особенно «Грамматический словарь русского языка» (1977), в котором для 100 000 слов русского языка указана точная модель словоизменения и предложена классификация самих этих моделей. Этот словарь стал основой для разработки компьютерных программ автоматического морфологического анализа, в том числе в информационном поиске, в машинном переводе. Именно этот труд лег в основу алгоритма поиска «Яндекса» и других поисковиков, основанного на морфологическом принципе опознавания слов.
Читать дальше
Конец ознакомительного отрывка
Купить книгу