Сегодня наши любимые СМИ предстанут перед читателем в препарированном виде, в каком они кладутся на стол руководителям крупных корпораций и высшим государственным чинам.
«Что», «как» и «зачем» текст-майнинга
Извлечение информации из средств массовой информации — дело тонкое, утомительное и крайне дорогое. Есть в этом какая-то нехорошая ирония — но факт остается фактом. До недавнего времени заниматься этим делом всерьез (во всяком случае, в России) могли позволить себе только самые мощные спецслужбы и самые важные из госорганов [Это всего лишь догадка. Откуда нам точно знать, что они там себе позволяют?] (что почти одно и то же). Причина проста: штат аналитиков — это всегда штучный, уникальный инструмент для решения штучных же задач (притом требующих гигантской и непрерывной черновой работы по сбору данных). Несмотря на то что прогресс компьютерных технологий уже много лет идет «муровскими» темпами, только в последние годы появились реальные возможности для демократизации в области массового мониторинга источников — весьма, впрочем, умеренной. Благодаря ей услуги по содержательному и представительному мониторингу СМИ доступны теперь и крупным корпорациям, и даже политическим партиям.
Для чего им это нужно? Деннис Кахилл (Dennis Cahill), вице-президент компании Factiva (www.factiva.com), активно ведущей открытую компьютерную разработку информационных залежей СМИ, считает, что без текст-майнинга бизнес не сможет правильно учитывать значимые изменения в деловой, социальной, правовой сфере. Те самые «тренды» и «паттерны», которые желательно заметить вовремя и успеть среагировать.
Что-то входит в моду, что-то выходит из моды. Над кем-то сгущаются тучи, над кем-то — рассеиваются. Обо всем этом можно узнать, тщательно анализируя общедоступные источники. Люди, занимающиеся фундаментальным анализом рынков — отслеживанием и изучением всех сообщений, имеющих отношение к поведению интересующих их акций или валют, — ведут такой анализ давным-давно, очень успешно и без всякого текст-майнинга. Но можно сказать и иначе — они ведут текст-майнинг собственными подручными средствами; почему бы не (про)дать им (и другим желающим) современный экскаватор? Главное — чтобы он не разнес на куски хрупкие черепки фактов, которые представляют основную ценность для инфоархеолога современности [Термин «история современности» стал популярным после того, как его использовал в названии своей книги Эрнст Генри, замечательный историк, публицист, а главное, разведчик. Текст-майнинг в этом смысле — археология современности, раскопки, ведущиеся одновременно с захоронением в бесчисленных файлах только что полученной информации.].
Кахилл приводит пример с ожирением (obesity) — точнее, со словом «ожирение», которое в конце 2003 года стало все чаще мелькать в печати и блогах. К середине 2004 года проблема obesity стала трендом, а гиганты фастфуда, которых обвиняли в провоцировании этого серьезного недуга, столкнулись с проблемами. А столкновения, утверждает Кахилл, можно было бы избежать, вовремя прибегнув к текст-майнингу. Достаточно было отследить графики упоминаний слова «ожирение» в связке с упоминанием крупнейших сетей быстрой еды. Сделав это, сети бы поняли, на какую из них в ближайшее время обрушится удар общественного мнения — и успели бы перестроиться в духе времени.
Однако такие задачи — лишь первая ступень посвящения для профессионалов истинного текст-майнинга. Уровень серьезных систем сегодня позволяет компаниям браться за решение более деликатных вопросов.
Управление репутацией.Можно отследить, какова тональность упоминаний данной компании в СМИ, как она меняется со временем, и попытаться понять — с чем связаны эти изменения.
Конкурентный анализ.Из сообщений СМИ можно вытрясти более или менее правдоподобную картину расстановки сил в той или иной отрасли. Очень грубая модель такова — о ком больше и лучше говорят, тот и более успешен. Чтобы из этой грубой модели сделать сколько-нибудь рабочую, нужны очень серьезные усилия — ибо упоминания надо уметь классифицировать, рейтинговать по массе параметров, увязывать друг с другом и с целями исследования. Как ни странно, сегодня такой уровень уже достигнут — хотя полностью автоматизировать подобные вещи вряд ли возможно даже в принципе.
Бизнес-разведка.Что тут есть от настоящей разведки — судить не берусь. Очевидно, однако, что — в сочетании с перечисленными выше запросами — разумная технология связывания ключевых упоминаний в цепочки может давать отличный материал для размышлений. Тем более что оригиналы статей и даже записи телепередач доступны мгновенно — но тут я уже перехожу к рассказу о подробностях, замеченных при личных наблюдениях за увлекательным процессом текстовых раскопок в офисе «Медиалогии».
Читать дальше