Настоятельно рекомендую вам «загуглить» в Интернете файл под названием «Большое сравнение парсеров» (распространяется в Google Docs бесплатно). Авторство неизвестно, но там собрана информация о 14 парсерах, которые сопоставили с точки зрения 112 характеристик. Колоссальная работа. Даже если вы наткнетесь на давно не обновлявшийся файл, уверен, приятных впечатлений вам все равно не избежать.
Как происходит непосредственно парсинг. Алгоритмы
Парсинговые связки и названия кнопок интерфейса в этой книге могут отличаться от актуально действующих. Поэтому концентрируйтесь на том, чтобы уловить принцип, а не оттенки формулировок.
Честно говоря, чтобы обсудить хотя бы половину возможных (даже только типичных) алгоритмов, нужна еще одна отдельная книга, а то и не одна. Но чтобы пазл в вашей голове приобрел законченный вид, я пробегусь по логике процесса. Следите внимательно…
Предположим, вам нужна аудитория мам из Москвы, у которых есть маленькие дети (наряду с бизнес-аудиторией и аудиторией молодоженов одна из самых востребованных и дорогих аудиторий вообще). Что вы можете сделать?
Вариант 1
1. Собрать 3–5–10 (сколько найдете) активно действующих сообществ по темам типа «Мамочки Москвы», «Современные родители», «Детство — лучший отрезок жизни», «Советы мамам», «Подслушано у грудничков» и т. п.
2. Найти в этих сообществах обсуждения и фотоальбомы для тех мам, которые недавно родили (вкладка «Аудитория сообществ»/«Обсуждения» и «Аудитория сообществ»/«Фотоальбомы» в «Церебро») и спарсить оттуда всех активных.
3. Затем получившуюся базу загрузить в «Поиск аудитории»/«Группы, где есть ЦА» и найти все остальные сообщества, в которых суммарно состоят люди, собранные на предыдущем шаге.
4. Отфильтровать получившийся список минус-словами так, чтобы в нем остались только сообщества, посвященные материнству, заботе о грудничках и т. п., то есть очень и очень целевые.
5. Сохранить список оставшихся сообществ, а затем загрузить его во вкладку «Аудитория сообществ»/«Активности» и спарсить только активных пользователей, допустим, за последние две недели (причем активных за исключением лайков, потому что «лайкать» могут и те, кому просто фотография понравилась).
6. Зайти в «Фильтр баз»/«Поиск по базе» и отфильтровать девушек по возрасту и, самое главное, географии (вам ведь только москвички интересны).
7. Сохранить файл и посмотреть, достаточно ли он велик, чтобы продолжать с ним работу, или процедуру нужно повторить, начиная с третьего шага. В принципе, для нормальной работы вам нужна база примерно от 5000 до 80 000 ID, хотя я вполне эффективно настраивался и на аудиторию из 2000 человек (на аудиторию мам, родивших близняшек, кстати). Очень многое зависит от ниши, ее востребованности, вашего оффера и т. д. Что касается «Одноклассников», на данный момент базы менее 5000 человек сюда физически не загружаются.
Только что мы с вами мысленно прошли, пожалуй, наиболее типичный алгоритм поиска целевой аудитории (причем не очень сегментированный). То есть я совсем не удивлюсь, если точно таким же путем движется еще…дцать игроков московского рынка. В итоге вы начинаете конкурировать в рамках одной площадки за одних и тех же людей (потому что найдены они одним и тем же образом). Тем самым разогреваете аукцион (то есть поднимаете среднерыночную цену на рекламу) и откровенно выматываете целевую аудиторию своим предложением — не вы, так конкуренты. Это, кстати, еще одна причина, почему стоит сегментировать свою ЦА.
Хорошая новость заключается в том, что если вы готовы заморачиваться, то эту же аудиторию (но, скорее всего, другую ее часть) можно собрать и иначе.
Вариант 2. Парсинг — он как комбинация генов: чем родители наградили, тем и будут довольствоваться потомки. Таким витиеватым способом я пытаюсь сказать, что исходное сообщество (или исходная база данных) имеет ключевое значение. Поэтому…
1. Вы можете собрать исходные сообщества не по теме материнства в целом, а, например, по теме любви к мультфильмам. Найти сообщество «Маша и медведь», «Три богатыря», «Миньоны», «Мультимания» и т. п.
2. С помощью вкладки «Аудитория сообществ»/«Активности» можно выбрать всех, кто за последний месяц оставлял в этих сообществах комментарии (то есть активен).
3. Можете зайти в «Фильтр баз»/«Поиск по базе» и оставить в своем списке только девушек, только из нужного региона и только с детьми (конечно, будет погрешность в возрасте детей, потому что парсер соберет всех, у кого в графе «дети» указан хоть кто-нибудь; но с учетом того, что исходные сообщества были посвящены мультфильмам, вряд ли в конечном файле окажется так уж много мам выпускников средних школ).
Читать дальше