Практически сразу мы пришли к важному решению, что мы не будем публиковать полную базу данных. WikiLeaks уже собиралась это сделать, а мы хотели убедиться в том, что мы не раскроем имена лиц, ставших источниками информации, или не будем без необходимости подвергать опасности войска НАТО. В то же время нам нужно было сделать данные более легкими для понимания, а также для использования нашей командой расследовательских журналистов, возглавляемой Дэвидом Леем (David Leigh) и Ником Дэвисом (Nick Davies) (которые вели переговоры с Джулианом Ассанжем о публикации данных). Мы также хотели упростить задачу извлечения ключевой информации, чтобы она стала доступной всему миру, была при этом ясной, понятной и открытой – в максимально возможной степени, насколько у нас это получится.
Данные поступили к нам в виде огромного «экселевского» файла – 92 201 строка данных, в некоторых не было вообще ничего или же они были плохо отформатированы. Это никоим образом не помогало журналистам, которые продирались сквозь эти данные в поисках сюжетов для материалов, и вдобавок сам файл был слишком велик, чтобы сделать по нему содержательный отчет.
Наша команда соорудила простую внутреннюю базу данных с использованием SQL. Журналисты теперь могли осуществлять поиск по ключевым словам или тем или иным событиям. Получилось, что внезапно набор данных стал доступным, и создавать материалы на его основе стало гораздо легче.
Данные были хорошо структурированы: каждое событие имело следующие ключевые характеристики: время, дату, описание, количество пострадавших, и – самое важное – точные данные долготы и широты места, где оно произошло.
Мы также начали фильтровать данные, что должно было помочь нам рассказать одну из ключевых историй войны: рост числа атак с использованием самодельных взрывных устройств – придорожных мин домашнего изготовления, которые совершенно непредсказуемы и с которыми очень трудно бороться. Но и этот набор данных по–прежнему оставался слишком массивным – однако управляться с ним стало легче. Всего было примерно 7 500 случаев применения самодельных взрывных устройств или внезапных нападений, засад (за таковую атаку мы считали нападение, сочетающееся с, допустим, небольшой перестрелкой или использованием реактивных гранат) за период с 2004 по 2009 годы. И еще 8 000 самодельных взрывных устройств были обнаружены и обезврежены. Мы хотели посмотреть, как эта ситуация менялась со временем – и сравнить. Эти данные дали нам возможность увидеть, что юг, территория, где базировались британские и канадские войска, был самым «горячим» в этом плане районом, там происходило больше всего подобных инцидентов – и эти данные только подкрепили то, что наши журналисты, освещавшие войну, уже знали.
Публикация военных отчетов об Ираке в октябре 2010 выставила на публичное обозрение еще 391 000 записей, на этот раз по иракской войне.
И это было уже кое–что иное по сравнению с утечкой по Афганистану – вполне можно было, воспользовавшись этим случаем, сказать, что эта война стала самой задокументированной войной в истории. Любая, даже самая мелкая, подробность теперь была доступна для нас для анализа, обработки и выводов. Но обращает на себя один фактор: большое количество смертей, причем большинство погибших – гражданские лица.
Как и в случае с Афганистаном, Guardian решил не перепубликовывать всю базу целиком, в значительной мере потому, что мы не могли быть уверены, что поля с описанием не содержат конфиденциальную информацию или данные о тех людях, кто был источником информации, и так далее.
Но мы дали возможность нашим пользователям скачать таблицу с записями о каждом инциденте, где кто–то погиб. Таковых набралось примерно 60 000. Мы удалили при этом поля с кратким описанием, так что остались только основные данные: военный заголовок, число погибших и географическая разбивка.
Мы также взяли все эти инциденты с жертвами, и нанесли их на карту при помощи таблиц Google Fusion. Вариант оказался не идеальный, но в любом случае это было начало процесса попытки составления карт для отображения всех примеров разрушений и уничтожений, которые опустошили Ирак.
В декабре 2010 года были опубликованы депеши. И это был еще более внушительный набор данных – огромное собрание официальных документов: 251 287 дипломатических донесений, из более чем 250 американских посольств и консульств по всему миру. Получилась уникальная картина американского дипломатического языка – она включала в себя более 50 000 документов, касающихся и нынешней американской администрации Барака Обамы. Но что именно включали в себя эти данные?
Читать дальше