увеличиваем контраст и определяем границы массивов черных точек — это и есть знакоместа.
Также слабой стороной является то, что высота расположения символа задана в шрифте, т. е. одинаковые символы будут на одной высоте (правда, при написании алгоритма распознавания это не учитывалось).
Видно, что одинаковые символы всегда на одной высоте.
Распознавание сделать довольно легко путем прямого попиксельного сравнения каждого из символов со шрифтом.
Понятно, что единого универсального алгоритма здесь нет, каждый раз при появлении принципиально нового капча-фильтра первоначально задачу придется решать человеку в виде создания алгоритма распознавания. Однако, несмотря на невозможность создания при сегодняшних технологиях универсального алгоритма, возможно создание универсальных технологий, в которых на определенном этапе используются человеческие возможности.
Делается подобное следующим образом.
Исходные данные:
• сайт № 1, защищенный капча-фильтром, на который надо проникнуть виртуальному специалисту-[ро]боту;
• достаточно раскрученный сайт № 2, который принадлежит владельцу данного виртуального специалиста-[ро]бота.
Решение задачи:
1. Виртуальный специалист-[ро]бот обращается к сайту № 1 и парсит главную страницу, на которой находится капча-фильтр.
2. Виртуальный специалист-[ро]бот выделяет из страницы капча-фильтр и размещает его на подконтрольном сайте № 2.
3. Посетители сайта № 2 благополучно проходят капча-фильтр.
4. Виртуальный специалист-[ро]бот получает результат и передает этот результат главной странице сайта № 1.
Интересный пример сражения роботов с роботами приведен на сайте html:/ /www.omsk777.ru.Видно, что автора публикации война с роботами захлестнула не на шутку, и он описывает достаточно подробно, на уровне языка программирования, все известные ему способы идентификации роботов роботами.
Остановимся на одном достаточно элегантном примере распознавания робота.
Вот таким тегом языка html задается ссылка на страничках сайтов, по которой посетители лихо щелкают «мышкой»:
Здесь Тег указывает адрес перехода с параметрами;
width='1' height='1' — атрибуты тега , которые задают размер картинки с именем файла 'img/bud2.gif при отображении ее в виде значка перехода на экране.
Как видно, размер картинки всего один пиксель. Это означает, что посетитель-человек ее просто не увидит в силу слабости своего восприятия. А робот увидит, ибо он смотрит не на экран, а непосредственно работает с языком разметки. Робот увидит ссылку, но вряд ли подумает, что она специально для него, ибо проверять размер картинки не станет. Он торопится. И он пойдет по ссылке и начнет скачивать приготовленную для него страничку html. Но вот здесь-то его и ждет засада. Автор этого приема с сайта omsk777.ru не поленился и отомстил по полной программе, подготовив для робота маленький архив из нулей, который при разархивировании раздувается до 250 Гб. Мало не покажется. Робот-противник надолго будет занят бессмысленным делом.
Главное, как мы видим, — это узнать противника. А способов наказания существует достаточно много. Можно навесить на врага тяжелые мегабайтные файлы, можно отправить его по ссылке в какое-нибудь отвратительное место, можно загнать его в бесконечный цикл. Правда, противник тоже не полный кретин, он, получив ту или иную ссылку, тут же проверяет, а знакома ли она ему? И только в том случае, если незнакома, идет по этой дороге. Но дело-то в том, что сами ссылки всегда направлены на те или иные имена файлов, а робот-сайт, который готовит ловушку, всегда может менять имена хранимым у него файлам, используя датчик случайных чисел или дату со временем, а затем проставлять эти новые имена в ссылки для одноразового срабатывания. Пришел враг по ссылке, но пока он приходил, в эти самые мгновенья прихода, уже появился новый файл с тем же содержимым, но с другим именем. И это новое имя уже прописано в ссылке и ждет, когда его выберут: «И вечный бой!» И сбежать нельзя, потому что «работа» не закончена [44] Не по таким ли ссылкам ходит вечно проявляющаяся в тварном мире душа человека?
.
Допустим, используя вышеприведенные приемы, виртуальный специалист проник на сайт-объект информационной операции и разместил подготовленный заранее контент. Однако при размещении материалов на чужих ресурсах всегда надо учитывать, что хозяин (модератор) может удалить эти материалы, если они не соответствуют задачам ресурса. Рассмотрим далее способы защиты размещенных материалов от удаления или блокирования доступа к нему.
Читать дальше