Михаил Боде - Раскрутка - секреты эффективного продвижения сайтов

Здесь есть возможность читать онлайн «Михаил Боде - Раскрутка - секреты эффективного продвижения сайтов» весь текст электронной книги совершенно бесплатно (целиком полную версию без сокращений). В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Жанр: Интернет, Программирование, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Раскрутка: секреты эффективного продвижения сайтов: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Раскрутка: секреты эффективного продвижения сайтов»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Издание представляет собой самое полное и подробное руководство по поисковой оптимизации (SEO) от практикующих специалистов данной области.
Из книги вы узнаете основы SEO – алгоритмы, цели, принципы, особенности оптимизации. Отдельные главы посвящены специалистам, всем, кто желает построить собственную компанию и организовать, а также клиентам, использующим данный вид сервиса.
В приведенных интервью своим опытом делятся известные в интернет — сфере личности, эксперты в области SEO: Сергей Людкевич (Корпорация РБС), Алексей Жуков (UnMedia), Илья Зябрев (AlterTrader Research Ltd.), Роман Клевцов (Optimism), Елизавета Трибунская (SearchEngines.ru), Леонид Гроховский (ТопЭксперт).
Издание адресовано всем, кто начинает постигать основы поисковой оптимизации, и специалистам, желающим повысить свой профессиональный уровень благодаря практическому опыту авторов и приведенным рекомендациям от ведущих российских компаний по разработке интернет — решений.
12+ (В соответствии с Федеральным законом от 29 декабря 2010 г. № 436 — ФЗ.)

Раскрутка: секреты эффективного продвижения сайтов — читать онлайн бесплатно полную книгу (весь текст) целиком

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Раскрутка: секреты эффективного продвижения сайтов», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Алгоритм поиска дубликатов

В переводе с английского shingle означает «гонт». Яснее не стало? Гонт – это кровельный материал, а точнее, небольшие дощечки с пазами и выступами, которые собираются в один лист. Применительно к поисковым системам шинглы – это алгоритм для поиска дубликатов путем вычисления и сопоставления контрольных сумм выборки канонизированных (см. значение термина ниже) словосочетаний длиной от одной до десяти (приблизительно) единиц. Работает это следующим образом.

1. Все слова в тексте приводятся к исходным словоформам, стоп — слова (предлоги, союзы, частицы, знаки препинания и другие незначимые и не несущие смысловой нагрузки элементы) удаляются. Это называется канонизацией текста. Таким образом получается исходник для вычисления шинглов. Более жесткая канонизация может учитывать синонимы и, например, исходное слово «недомогать» заменять на «болеть». Это помогает выявлять тексты, где лишь некоторые исходные слова заменены близкими по смыслу

2. Канонизированный текст делится на фразы длиной от трех до десяти (примерно) слов. Разбивка осуществляется или встык, или внахлест, когда в последующую фразу включено одно или несколько последних слов из предыдущей. Малейшее изменение канонизированного текста – и возникают совсем другие шинглы. Чтобы конструкция не разрушилась как карточный домик, в тексте нужно задать четкие, но малоочевидные точки отсчета для членения на шинглы. В качестве примера приведем схожий алгоритм «Яндекса» под названием «Спамооборона», где устанавливаются границы, цитата: «от буквы “ю” до буквы “ю”; или от двухбуквия, сумма численных значений символов (букв) которого кратна 50, до следующего такого же».

3. Далее для каждого шингла вычисляется контрольная сумма (точнее, применяется хэш-функция). Проще говоря, последовательность слов превращается в последовательность цифр.

4. Затем формируется выборка шинглов, вернее, контрольных сумм и непосредственно сравнение и анализ документов. Из всех полученных контрольных сумм отбирается несколько десятков значений. Производится это путем случайной выборки, к примеру, 70 математических функций из заблаговременно составленного реестра, каждая из которых может описывать интересный для целей data mining параметр: пересечение, вложенность и т. д. Все шинглы документа пропускаются через каждое из 70 выражений, что дает на выходе значения, атрибутируемые тому или иному шинглу. Для каждой из 70 функций выбирается шингл с минимальным (возможны и иные критерии) значением контрольной суммы. В результате на базе анализируемого документа составляется сигнатура из 70 значений контрольных сумм. При сравнении с другим документом, который подвергся такой же операции, берутся шинглы, отобранные по совпадающим функциям. К примеру, если при отборе шинглов в обоих случаях было использовано 25 одинаковых функций из 70, то сравнение выполняется по 25 соответствующим контрольным суммам.

5. В результате анализа, если обнаружена высокая доля совпадения контрольных сумм двух документов, делается вывод о том, являются ли эти документы четкими (контент полностью совпадает) или нечеткими (контент претерпел некоторые изменения) дубликатами.

Конечно, алгоритм мы продемонстрировали лишь в общих чертах, чтобы дать представление о принципе поиска дубликатов методом шинглов.

Поисковики используют и другие сложные методы проверки текстов на уникальность. Среди них – статистический анализ частотности слов с использованием распределения Ципфа для поиска аномалий, наложение длинных пассажей (более длинных, чем шинглы, отрывков текста) для поиска совпадений в документах, которые подверглись ручному рерайту с разрушением шинглов, и другие методы.

Таким образом, избежать санкций поисковиков за использование чужого контента можно, лишь создавая оригинальный контент – самостоятельно ли, с привлечением ли копирайтера или рерайтера, способного качественно преобразовать заимствованный текст.

Семантическая разметка страниц

Индексируя страницы сайта, поисковый робот первым делом извлекает из них информацию. Чем более четко и организованно она подана «посланцу» Google или «Яндекса», тем быстрее и точнее он решит эту задачу.

На быстроту и корректность сбора данных для индексации влияет так называемая семантическая разметка страницы. Такое форматирование веб — документа призвано преподнести контент поисковику в предельно понятном, «съедобном» виде. Страница без семантической разметки будет так или иначе интерпретирована роботом, но ему придется самостоятельно структурировать извлеченную из нее информацию. А поскольку алгоритмы поисковых систем неидеальны, при отсутствии помощи со стороны сайтовладельца им не всегда удается безошибочно трактовать материалы и обеспечивать безупречный поиск по ключевым запросам.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Раскрутка: секреты эффективного продвижения сайтов»

Представляем Вашему вниманию похожие книги на «Раскрутка: секреты эффективного продвижения сайтов» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Раскрутка: секреты эффективного продвижения сайтов»

Обсуждение, отзывы о книге «Раскрутка: секреты эффективного продвижения сайтов» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x