В любом случае, когда принимается решение о вводе ограничений на работу поисковой машины, это автоматически означает, что существуют страницы, которые могли бы быть проиндексированы, чего, однако, сделано не было.
Такое положение вещей имеет необычный побочный эффект: большие сайты могут порой проигрывать небольшим по полноте охвата информационными системами.
3. Принцип попадания страниц в индекс при помощи пауков.
Паук попадает только на те страницы, на которые есть ссылки с других страниц, либо по которым делались запросы в поисковые системы с целью уточнения рейтинга страницы в поисковой системе, либо которые внесены в очередь на индексирование вручную – путем заполнения формы «Добавить страницу» («Add URL»). Соответственно, если на страницу никто не ссылался, и никто о ней не сообщал поисковой системе вручную, то такая страница не будет проиндексирована.
Кроме того, если даже паук регулярно посещает страницу, то он делает это с определенной периодичностью. Если в промежутке между двумя посещениями ресурс изменится, то это изменение некоторое время будет неизвестно поисковой системе и ее пользователям.
Таким образом, существуют две задержки по времени в индексировании страниц: когда сайт создан, но еще неизвестен поисковику, и когда паук проиндексировал страницу, но не посетил ее повторно.
4. Необычные слова на странице, интересующей пользователя.
Страница, которая нужна пользователю, может содержать слова, отличные от тех, которые он, вероятнее всего, введет в поисковую строку. В результате, человек, не обладающий большим опытом поиска информации в Интернете, не сможет найти нужную страницу с помощью поисковой машины.
5. Предпочтение поисковой машиной быстроты поиска, а не его глубины.
Выбор между «максимально быстро» и «максимально полно» существует в любой отрасли, связанной с получением и обработкой информации. Поисковые системы обычно сориентированы их владельцами на наиболее быстрое получение результатов, пусть даже в ущерб полноте. Поэтому некоторые страницы, индексирование которых трудоемко, остаются за пределами базы данных, попадающей на сервер поисковой машины.
Хотя бывают исключения из этого правила. Существуют специализированные поисковики, которые добывают информацию, копая вглубь и напрочь отметая критерий скорости ее нахождения. Но они при этом «ходят» лишь на тематические сайты. Примером такой специализированной системы может служить, по информации Гэри Прайса Law Crawler ( http://lawcrawler.lp.findlaw.com/ ) или Politicalinformation.com ( http://www.politicalinformation.com ).
6. Ориентация поисковых машин на поиск текстов в разных вариантах.
Поисковые машины изначально сориентированы на поиск текстов. На раннем этапе развития Интернета – представленных в формате HTML, после чего стали добавляться и другие их разновидности – Word (.doc), Adobe Acrobat (.pdf), Flash. Однако и эти форматы все равно содержат тексты. Индексировать изображения или, например, звуковые файлы (не названия звуковых файлов, а именно сам звук), поисковые машины пока не научились.
Типы контента в невидимом Интернете
Разные типы контента по разным причинам могут стать частью невидимого Интернета.
1. Быстрое устаревание или изменение информации.
Некоторые виды информации устаревают или меняются столь стремительно, что пауки просто не в состоянии ее проиндексировать своевременно. При этом часто владельцы поисковых систем вообще не пускают спайдеров на такие страницы, дабы не тратить ресурсы на бесполезное занятие.
Примером такого контента может служить сайт о погоде в реальном масштабе времени.
2. Ресурсы состоят преимущественно из документов в таких форматах, которые не поддерживаются поисковыми машинами.
Как, скажем, страница, содержание которой ограничивается одним лишь изображением.
3. Содержимое страницы генерируется по запросу и формируется пошагово.
Примером в данном случае может служить ресурс, на котором осуществляется расчет цены автомобиля, в зависимости от комплектации и материала отделки салона. Для получения такой страницы пользователь пошагово заполняет формы на сайте, и конечный результат каждый раз формируется заново. Содержимое такой страницы не может быть проиндексировано по той простой причине, что без запроса страницы не существует, а заполнять формы паук не умеет.
4. Содержимое баз данных.
Читать дальше
Конец ознакомительного отрывка
Купить книгу