Команда проекта состояла из 12 журналистов и одного штатного программиста. Сотрудничество длилось 9 месяцев. Только один лишь сбор данных занял несколько месяцев.
Результатом проекта стали пять дней освещения темы в Financial Times и в BIJ, а также документальный фильм на ВВС и еще несколько телевизионных документальных фильмов.
Прежде чем приступить к проекту, требующему подобного уровня усилий, необходимо удостовериться, что все выводы — оригинальны, свежи и подлинны, и что результатом станут сюжеты и материалы, которых не будет больше ни у кого.
Процесс был разбит на ряд отчетливых, обособленных шагов:
1. Определить, кто хранит данные и как они хранятся.
У Генерального директората Европейской комиссии по вопросам региональной политики есть порталс выходом на сайты региональных властей, которые публикуют данные. Мы были уверены, что у комиссии должна быть всеобъемлющая база данных для проекта, к которой мы могли бы либо получить прямой доступ, либо добиться его при помощи запроса на предоставление данных согласно нормам свободы информации. Однако никакой подобной базы, как оказалось, не существует, по крайней мере, настолько подробной, насколько нам требовалось. Мы быстро поняли, что многие из гиперссылок, предоставленных Еврокомиссией, были битыми, неработающими, а также что большинство органов власти публикуют данные в формате PDF, а не в легко поддающихся анализу форматах типа CSV или XML.
Команда из 12 человек работала над решением задачи определения самых свежих данных и превращения ссылок в одну большую таблицу, которую мы использовали для совместной работы. Так как графы и столбцы с данными не были однообразными (например, заголовки часто были на разных языках, в некоторых наборах данных использовалась разная валюта, а в какие–то данные была включена разбивка на европейское и национальное финансирование), нам нужно было быть очень точными при переводе и переформатировании, как и при описании групп данных, имевшихся в каждом из источников.
2. Загрузить и подготовить данные.
Следующий шаг представлял собой загрузку всех таблиц, PDF–файлов, и, в некоторых случаях, результатов вэб–скрэпинга исходных данных.
Потом каждый набор данных требовалось стандартизировать, привести к единому формату. Самой большой проблемой стало извлечь данные из PDF–файлов, длиной по несколько сотен страниц. Большая часть этой работы была выполнена при помощи программ UnPDF и ABBYY FineReader, которые позволяют извлекать данные, создавая файлы форматов CSV или Excel.
Также на этом этапе проводилась проверка и перепроверка — чтобы убедиться, что инструменты по извлечению информации из PDF–файлов провели захват информации правильно и корректно, без ошибок и пропусков. Это было сделано посредством использования фильтрации, сортировки и подсчета итоговых результатов (чтобы убедиться, что они совпадают с тем, что напечатано в PDF–файлах).
Программист команды сделал базу данных в SQL. Каждый из предварительно подготовленных файлов потом был использован как один из кирпичиков для общей SQL–базы. Потом пошел процесс загрузки всех индивидуальных файлов данных в одну большую SQL–базу данных, к которой сразу можно было начинать направлять поисковые запросы.
4. Дважды перепроверить и проанализировать.
Команда анализировала данные двумя основными способами:
Через интерфейс базы данных
Можно было вводить определенные ключевые слова (например, «табак», «гостиница», «компания А») в строку поиска. При помощи Google Translate, который был встроен в функционал поиска нашей базы данных, эти ключевые слова переводились на 21 язык и выдавали соответствующие результаты. Эти результаты можно было загрузить, и журналисты могли начинать проводить дальнейшие исследования уже по индивидуальным проектам, по конкретным интересующих их моментам.
Через макроанализ с использованием всей базы данных
Время от времени мы могли загружать полный набор данных, который затем можно было анализировать, например, с использованием ключевых слов, или группируя данные по стране, району, типу расходов, количеству проектов у бенефициара, и т.п.
Наши сюжетные линии получали информацию как из результатов этих двух анализов, так и посредством полевых и кабинетных исследований.
Двойная проверка полноты и целостности данных (путем суммирования и сверки с тем, что, по словам властей, было выделено и распределено) заняла значительное время. Одной из основных проблем было то, что власти по большей части обнародовали лишь суммарное «финансирование на едином европейском и на национальном уровнях». По правилам ЕС, каждая программа на определенный процент может финансироваться из общих средств ЕС. Уровень финансирования ЕС определяется, на программном уровне, так называемой ставкой софинансирования. Каждая программа (например, в области региональной конкуренции), состоит из многочисленных проектов. На проектном уровне технически один проект может получить стопроцентное европейское финансирование, а другой — не получить денег от Европы вовсе, но если все эти проекты сгруппировать вместе, сумма финансирования по линии ЕС на программном уровне не должна быть выше одобренного уровня софинансирования.
Читать дальше