В La Nacion мы используем: * Excel для очистки, структурирования и анализа данных; * Таблицы Google для публикации и объединения с сервисами типа Google Fusion Tables и Junar Open Data Platform; * Junar для расшаривания данных и внедрения их в статьи и блоги; * Tableau Public для интерактивной визуализации данных; * Qlikview – очень быстрый инструмент бизнес–аналитики для анализа и фильтрования больших массивов данных; * NitroPDF для конвертирования PDF в текстовые и Excel–файлы; * Google Fusion Tables для визулизации карт.
La Nacion (Аргентина) — Анхелика Перальта Рамос
Как стихийное сообщество без предубеждений относительно технических средств, мы в Transparency Hackers используем множество различных инструментов и языков программирования. У каждого из нас свой список предпочтений, и в этом разнообразии наша сила и слабость одновременно. Кто–то разрабатывает дистрибутив Linux от Transparency Hacker, который загружается где угодно и начинает вскрывать данные. Этот набор инструментов имеет несколько любопытных функций и библиотек для работы с данными (Refine, RStudio и OpenOffice Calc), о которых подкованные пользователи обычно забывают, но которые очень полезны для быстрых и мелких операций. Я также часто использую Scraperwiki, чтобы быстро смоделировать и сохранить результаты данных онлайн.
Для визуализации данных и создания схем есть много хороших инструментов. Например, очень много возможностей у Python и NumPy. Кое–кто из нашего сообщества балуется с R, но в конечном счете в большинстве проектов мы все равно используем библиотеки графиков на Javascript типа d3, Flot и RaphaelJS. Наконец, мы много экспериментировали с составлением диаграмм, и для этого нам очень интересным показался Tilemill.
Как использовать визуализацию данных для поиска взаимосвязей
Визуализация крайне важна для анализа данных. Это главная линия нападения, открывающая запутанные структуры в данных, которые нельзя получить другим способом. Мы находим то, что не ожидали найти, и ставим под вопрос то, что было ожидаемо.
— Уильям С. Кливленд: визуализация данных
Сами по себе данные, состоящие из битов и байтов в файле на жестком диске, невидимы. Чтобы увидеть данные и разобраться в них, нужно их наглядно представить. В этой главе я расскажу о более широком понятии визуализации, которая включает и чисто текстовое представление данных. Например, уже загрузка массива данных в программу создания таблиц будет визуализацией. Невидимые данные внезапно превращаются во вполне видимую картинку на экране. Вопрос не в том, нужно или нет журналистам наглядно представлять данные, а какой вид представления данных может быть наиболее наглядным в конкретном случае.
Другими словами, когда есть смысл идти дальше табличного представления? Ответ: почти всегда . Самих таблиц явно недостаточно для общего представления массива данных. И только таблицы не дают быстро определить закономерности в данных. Самый простой пример – географические закономерности, которые можно наблюдать только после визуализации данных на схеме. Есть и другие закономерности, о которых мы поговорим далее в этой главе.
Выявление взаимосвязей с помощью визуализации
Было бы опрометчиво ожидать, что инструменты для наглядного представления данных способны тут же обрушить на вас тонну готовых историй, возникших по мановению палочки из массивов данных. Нет никакого алгоритма, никакой гарантии, что вы получите сюжет. Напротив, думаю, имеет смысл искать взаимосвязи, которые руками хорошего журналиста мастерски вплетаются в статью.
Каждая новая визуализация, скорее всего, поможет увидеть взаимосвязи между данными. Какие–то взаимосвязи нам уже известны (но еще не доказаны), тогда как другие могут быть совершенно новыми и даже неожиданными. Какие–то новые взаимосвязи могут дать начало истории, в то время как другие будут просто результатом ошибки, которые наверняка обнаружатся в процессе визуализации.
Чтобы более эффективно находить взаимосвязи в данных, очень помогают описанные ниже шаги:
Рис 68. Data insights: a visualization (Gregor Aisch)
Как визуализировать данные
Визуализация позволяет в совершенно новом свете увидеть данные. Наглядное представление может быть самым разным.
Если у вас сравнительно небольшое количество элементов, то очень наглядными будут таблицы. Они демонстрируют подписи и значения в наиболее структурированном и организованном виде, раскрывая весь потенциал, а также позволяя сортировать и фильтровать данные. Кроме того, Эдвард Туфт предложил включить в колонки таблиц маленькие графики (одна графа на строку или линейный график – спарклайн). Те не менее, как было сказано во введении, у таблиц есть свои ограничения. Они отлично подходят для демонстрации одномерных значений, сильно отличающихся от других (например, первые 10), но когда дело доходит до сравнения нескольких измерений одновременно (например, изменение численности населения страны в течение времени), они мало полезны.
Читать дальше