Далчи Грей - Пособие по журналистике данных

Здесь есть возможность читать онлайн «Далчи Грей - Пособие по журналистике данных» весь текст электронной книги совершенно бесплатно (целиком полную версию без сокращений). В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Год выпуска: 2013, ISBN: 2013, Жанр: Справочники, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Пособие по журналистике данных: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Пособие по журналистике данных»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Эта книга адресована журналистам, программистам, дизайнерам, издателям, руководителям медиакомпаний, а также широкому кругу читателей, интересующихся развитием жанра журналистики данных. книга доступна для свободного копирования, распространения и повторного использования согласно условиям лицензии Creative Commons "Атрибуция - Распространение на тех же условиях". Соавторы книги сохраняют авторские права на свои произведения и любезно согласились на их публикацию на условиях данной лицензии. Иллюстрации к печатному варианту книги взяты из оригинального онлайн-издания.

Пособие по журналистике данных — читать онлайн бесплатно полную книгу (весь текст) целиком

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Пособие по журналистике данных», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Простой пример – графа «пол». Может оказаться, что в этой графе встречаются различные варианты: «мужской», «женский», «М», «Ж», «1», «0», «МУЖСКОЙ», «ЖЕНСКИЙ» и т.д., включая варианты с ошибочным написанием («жнский»). Для толкового гендерного анализа вам придется стандартизировать эти данные и остановиться, например, на М и Ж, а затем подвести все значения под единый стандарт. Есть еще одна известная база данных с подобными проблемами – это база финансирования избирательных кампаний в США, где в графе «профессия» может стоять «адвокат», «юрист», «юрисконсульт», «юрконсульт», «адв.» и прочие варианты, в том числе с орфографическими ошибками. Опять же, фокус в том, чтобы привести названия профессий к единому стандарту и существенно сократить список вариантов.

Упорядочение данных может оказаться еще более сложным, когда дело доходит до личных имен. А вдруг Джозеф Т. Смит, Джозеф Смит, Д.Т. Смит, Джоз. Смит и Джо Смит – это один и тот же человек? Возможно, придется обратить внимание и на другие переменные – адрес, дату рождения – и даже копнуть глубже, чтобы узнать наверняка. Попробуйте Google Refine. С ним задача упорядочения и стандартизации данных будет не такой трудоемкой и утомительной.

Данные могут содержать незафиксированную информацию

Образцом для расшифровки любой базы данных является так называемый словарь базы данных. Как правило, этот файл (он может существовать в виде текста, PDF или даже таблицы) содержит информацию о формате файла с данными (текстовый файл с разделителями, текстовый файл с полями фиксированной ширины, файл Excel, dBase и т.д.), порядке переменных, названии каждой переменной и типе каждой переменной (текстовая строка, целое число, десятичная дробь и т.д.). Эта информация вам понадобится для правильного импортирования файла с данными в анализирующую программу (Excel, Access, SPSS, Fusion Tables, различные вариации SQL и т.д.)

Другой важный элемент словаря базы данных – описание кодов, которые используются для обозначения каких–либо переменных. Например, пол можно закодировать: «мужской» = 1, «женский» = 2. Преступления можно закодировать по номерам, зафиксированным в законодательных актах вашей юрисдикции. В историях болезни для обозначения диагноза врачи используют сотни пятизначных кодов. Без словаря эти массивы данных будет сложно и даже невозможно проанализировать.

Но даже вооружившись словарем данных, вы можете столкнуться с проблемой. Например, вот что случилось несколько лет назад с репортерами из «Майами Геральд» во Флориде, когда они анализировали наказания, назначенные нарушителям за вождение в нетрезвом виде. Репортеры получили данные о судимостях из судебной базы данных и проанализировали числа в трех разных категориях наказаний по словарю данных: количество длительных тюремных сроков, количество коротких тюремных сроков и количество назначенных штрафов. Среди судей количество наказаний несколько разнилось, что дало репортерам повод написать статью о суровых и снисходительных судьях.

Но статистика по каждому судье отдельно показала, что примерно в 1–2% случаев не было назначено ни срока, ни штрафа. Поэтому на графике, демонстрирующем закономерность наказаний, как будто бы добавленная в последний момент, появилась маленькая графа с теми случаями, где наказание отсутствовало. Когда статья вместе с графиком была опубликована, судьи в один голос возмутились: мол, «Геральд» пытается обвинить их в нарушении законов штата, требующих наказания любому нетрезвому водителю.

Тогда репортеры вновь обратились к секретарю суда, который составил для них файл с данными, с просьбой разъяснить причину ошибки. Секретарь объяснил, что в указанных делах ответчиками являлись люди неимущие, совершившие правонарушение впервые. По закону им был положен штраф, но они не могли его заплатить. Поэтому судьи приговаривали их к общественным работам (например, подметать улицы). Как выяснилось, закон, требующий наказания, был принят после создания базы данных. Поэтому все судебные секретари знали, что пропуск в графе «наказание» означал общественные работы. Но этого НЕ БЫЛО в словаре данных, поэтому «Геральд» пришлось опубликовать опровержение.

Поэтому никогда не забывайте уточнить у источника данных, существуют ли какие–то неучтенные данные, новые коды, изменения в структуре файла и прочее. Кроме того, внимательно изучайте результаты анализа на предмет адекватности. Репортерам «Геральд» пришлось строить график в очень сжатые сроки, поэтому их интересовала закономерность в наказаниях, назначенных каждым судьей. Та горстка дел, где наказание якобы отсутствовало, ускользнула от их внимания. Им следовало спросить себя: а не кажется ли странным, что все судьи допустили нарушение закона, даже если только в самой малой доле случаев?

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Пособие по журналистике данных»

Представляем Вашему вниманию похожие книги на «Пособие по журналистике данных» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Пособие по журналистике данных»

Обсуждение, отзывы о книге «Пособие по журналистике данных» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x