Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Здесь есть возможность читать онлайн «Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2021, ISBN: 2021, Жанр: economics, Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

В этой главе мы рассмотрим три основных метода создания наборов данных, а также пути возникновения темных данных, связанные с каждым из них. Следующая глава посвящена дополнительным осложнениям, которые темные данные могут вызывать в разных ситуациях.

Итак, вот три основные стратегии создания наборов данных.

● Сбор данных обо всех интересующих нас объектах.

Именно к этому стремятся, например, во время переписи населения. Точно так же инвентаризации преследуют цель максимально детализировать все позиции на складе или в любом другом месте. В 2018 г. ежегодная инвентаризация в лондонском зоопарке, которая занимает около недели, показала, что в данной организации насчитывается 19 289 животных – от филиппинских крокодилов до беличьих обезьян, пингвинов Гумбольдта и двугорбых верблюдов (в случае муравьев, пчел и других социальных насекомых подсчитывались колонии). В главе 1 мы уже отмечали, что супермаркеты собирают данные обо всех покупках. То же самое касается налогов, операций по кредитным картам и персонала. Не менее подробно регистрируются спортивная статистика, книги на полках библиотек, цены в магазинах и многое другое. Во всех этих примерах каждая единица – будь то объект или человек – детализируется для формирования набора данных.

● Сбор данных о некоторых элементах совокупности.

Альтернативой полной переписи населения является сбор данных в рамках ограниченной выборки. Репрезентативная выборка крайне важна в нашем контексте, и мы подробно рассмотрим ее взаимосвязь с проблемой темных данных. Проще говоря, порой приходится собирать только те данные, которые легче собрать. Чтобы понять, как ведут себя покупатели в принципе, вы можете понаблюдать за теми, кто пришел в магазин сегодня. Для того чтобы узнать, сколько времени у вас отнимает дорога до работы, вы можете просто ежедневно на протяжении месяца следить за продолжительностью поездки. Бывают ситуации, когда просто не нужно измерять все: чтобы увидеть динамику изменения цен на продукты питания, вам не нужна информация о каждой покупке, а для определения среднего веса песчинки ни к чему взвешивать каждую из них. В главе 1 мы уже видели, что само понятие «измерение всего» может быть лишено смысла. Полнота данных, например о вашем росте, будет ограничена только теми измерениями, которые вы проведете.

Несколько лет назад, еще до начала эры легкодоступных больших наборов данных, мы с коллегами опубликовали «Справочник по небольшим наборам данных» [12] D. J. Hand, F. Daly, A. D. Lunn, K. J. McConway, and E. Ostrowski, A Handbook of Small Data Sets (London: Chapman and Hall, 1994). , включающий в себя 510 массивов реальных данных, на примере которых преподаватели могут иллюстрировать концепции и методы статистики. В справочнике приведены результаты 20 000 бросков игральной кости, данные о сроках беременности, толщине роговицы глаза, длительности нервных импульсов и множество других наборов данных, очень немногие из которых описывают генеральные совокупности целиком.

● Изменение условий.

Первые две стратегии помогают собрать так называемые данные наблюдения. Вы просто измеряете значения, которые присущи объектам или людям, никак не меняя условия, в которых проводятся измерения. Вы не даете людям лекарств, чтобы отследить их реакцию, не просите выполнить какое-либо задание, чтобы подсчитать, сколько времени это займет, не меняете удобрения, чтобы посмотреть, какие из них дают самый обильный урожай, не пробуете разную температуру воды, чтобы понять, как она влияет на вкус чая. Если же вы меняете условия сбора данных, иначе говоря, вмешиваетесь, то такие данные называются экспериментальными. Экспериментальные данные особенно важны, потому что они могут дать информацию о контрфактуальности ( DD-тип 6: данные, которые могли бы существовать ), упомянутой в главе 1.

Хотя у всех трех методов сбора данных есть немало общих недостатков, связанных с темными данными, для каждого из них характерны и свои особые проблемы. Мы начнем с рассмотрения первой стратегии сбора данных, претендующей на полный охват.

Извлечение, отбор и самоотбор данных

Компьютеры оказали революционное влияние на все аспекты нашей жизни. Где-то это влияние проявляется очевидным образом, например в программном обеспечении, которое я использую для подготовки рукописи этой книги, или в системе бронирования авиабилетов, а где-то оно не так заметно, если речь идет, скажем, о встроенных компьютерах, управляющих тормозами и двигателем автомобиля, или о начинке какого-нибудь копировального аппарата.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Представляем Вашему вниманию похожие книги на «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Обсуждение, отзывы о книге «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x