Думаю, стоит иметь в виду этот список – не только в процессе анализа данных, но и на стадии их сбора (ищете ли вы данные в свободном доступе или компилируете широкий набор информационных запросов).
1. Измерение
Простейшая история ; подсчет или подведение итога: «В прошлом году муниципалитеты потратили на скрепки Х миллиардов фунтов».
Зачастую сложно понять, много это или мало. Нужен контекст, который можно дать при помощи:
2. Соотношения
«В прошлом году муниципалитеты закупили скрепок на две трети своего бюджета на канцтовары»
3. Внутреннего сравнения
«Муниципалитеты тратят больше денег на скрепки, чем на передвижную кухню для престарелых»
4. Внешнего сравнения
«Муниципальные затраты на скрепки в прошлом году в два раза превысили государственный бюджет помощи иностранным государствам»
5. Изменение во времени
«Муниципальные затраты на скрепки за последние четыре года выросли втрое»
6. Ранжирования
Ранжировать можно по географическому местоположению или по учреждениям, но убедитесь, что основание для сравнения справедливо (например, учитывает численность местного населения).
«Муниципалитет Борсетшира тратит на скрепки для сотрудников больше, чем другие органы власти, и в четыре раза выше, чем тратится в среднем по стране».
Вы также можете разделить субъекты данных по группам:
7. Анализа по категориям
«Муниципалитеты Красной партии тратят на скрепки в 1,5 раза больше, чем муниципалитеты Желтой партии».
Вы можете соотнести факторы с помощью цифр
8. Ассоциаций
«Муниципалитеты, возглавляемые политиками, получившими взносы от производителей канцтоваров, тратят на скрепки больше, и на каждый фунт взноса приходится в среднем сто фунтов затрат»
Разумеется, не забывайте, что корреляция и причинная зависимость – не одно и то же.
Поэтому, изучая затраты на скрепки, получаете ли вы следующие цифры?
Общие затраты для контекста
Сортировку по географическим/историческим/иным факторам, чтобы получить сравнительные данные
Дополнительные данные, чтобы обеспечить справедливость сравнения (например, численность населения)
Другие данные, которые могут стать основой любопытного анализа, и с которыми можно сравнить или соотнести затраты
— Мартин Розенбаум, ВВС
Журналисты, работающие с данными, обсуждают выбранные инструменты
Шршршр. Вот с таким звуком ваши данные сыплются из герметичной упаковки. Что теперь? Что вы ищите? Какие инструменты вы используете, чтобы начать работу? Мы попросили журналистов, работающих с данными, рассказать о том, как они работают. Вот что они ответили.
В блоге «Guardian Datablog» мы любим общаться с читателями. Мы позволяем им копировать наши исследования, а значит, они могут написать что–то на основе нашей работы и иногда подметить то, что от нас ускользнуло. Мы стараемся выбирать инструменты, которые может легко освоить любой без изучения языков программирования, без специального обучения или бьющей по карману лицензионной платы.
Именно по этой причине мы сейчас используем продукты Google. Все массивы данных, которые мы чистим и публикуем, доступны в формате Google Spreadsheet, а значит, пользователи, имеющие аккаунт в Google, смогут скачать данные, импортировать в свой аккаунт и составить собственные графики, отсортировать данные и создать сводные таблицы, либо импортировать данные в ту программу, которую они предпочитают использовать.
Для преобразования данных мы используем таблицы Google Fusion. Когда мы создаем теплокарты в Fusion, то расшариваем свои шейп–файлы KML, чтобы читатели смогли скачать их и создать свои теплокарты, может быть, добавив дополнительные слои данных на первоначальную карту Datablog. Еще одно преимущество инструментов Google – они работают на множестве платформ, с которых наши читатели заходят на наш блог (настольный компьютер, мобильные устройства, планшетники).
Помимо таблиц Google и Fusion мы используем в своей работе еще два инструмента. Первый – это планшет для визуализации многомерных массивов данных. Второй – это ManyEyes для быстрого анализа данных. Они, конечно, не совершенны, поэтому мы продолжаем искать более подходящие средства визуализации, которые понравятся нашим читателям.
The Guardian — Лиза Эванс
Буду ли я когда–нибудь программистом? Очень сомневаюсь! Не думаю, что журналистам обязательно уметь программировать. Но полезно представлять возможности программистов, чтобы уметь правильно поставить задачу.
Читать дальше