Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Здесь есть возможность читать онлайн «Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2021, ISBN: 2021, Жанр: economics, Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Но независимо от того, очевидна или нет роль компьютеров, во всех случаях в машины поступают данные – измерения, сигналы, команды – и обрабатываются ими, чтобы принять решение или выполнить какую-либо операцию. Казалось бы, по завершении операции можно попрощаться с данными, однако зачастую этого не происходит. Данные все чаще сохраняют, отправляют в базы данных и там аккумулируют. То же самое происходит и с побочными или, как их еще называют, выхлопными данными (по аналогии с выхлопными газами), которые в дальнейшем помогают добиться лучшего понимания, усовершенствовать системы или восстановить картину событий, если что-то пошло не так. Черный ящик в самолете является классическим примером такого рода систем.

Выхлопные данные, описывающие людей, называются административными [13] D. J. Hand, “Statistical challenges of administrative and transaction data (with discussion),” Journal of the Royal Statistical Society , Series A181 (2018): 555-605. . Особая сила административных данных заключается в том, что они сообщают не то, что люди говорят о своих действиях (как, например, в случае опросов), а то, что они делают на самом деле . Такие данные показывают, что люди купили, где они это купили, что они ели, какие поисковые запросы делали и т. д. Считается, что административные данные намного точнее демонстрируют реалии общества, чем ответы людей на вопросы об их действиях и поведении. Это привело к накоплению правительствами, корпорациями и рядом других организаций гигантских баз данных, описывающих наше поведение. Нет сомнения в том, что эти базы данных представляют собой очень ценный ресурс, настоящую золотую жилу в сфере знаний о человеческом поведении. Сделанные на их основе выводы помогут усовершенствовать процесс принятия решений, повысить корпоративную эффективность и лучше продумать государственную политику – конечно, при условии, что эти выводы будут точными и не подвергнутся влиянию темных данных. Кроме того, когда данные, которые мы хотели бы сохранить в темноте, становятся известны другим, возникают риски нарушения конфиденциальности. Мы вернемся к этому вопросу чуть дальше, а пока давайте поищем темные данные, причем в самых неожиданных местах.

Один из очевидных и очень серьезных недостатков административных данных кроется в самом их преимуществе: они сообщают о том, что на самом деле делают люди, а это может быть полезным только тогда, когда вы не пытаетесь исследовать, что люди думают и чувствуют. Например, своевременное обнаружение недовольства сотрудников тем, как идут дела, может быть не менее важным для корпорации, как и наблюдение за их поведением в жестких рамках повседневной работы, когда начальник буквально стоит за спиной. Но, чтобы узнать, что чувствуют люди, нам придется активно допытываться этого, например с помощью опроса. Для решения разных задач требуются и разные стратегии сбора данных, при этом каждая из них грозит своими особыми проблемами, связанными с темными данными.

Мое первое настоящее знакомство с темными данными состоялось в сфере банковских услуг для потребительского сектора: кредитные и дебетовые карты, персональные займы, автокредиты, ипотека и прочие подобные вещи. Данные о транзакциях по кредитным картам представляют собой гигантские наборы данных, поскольку миллионы клиентов ежегодно совершают миллиарды операций. Так, с июня 2014 г. по июнь 2015 г. было совершено около 35 млрд транзакций по картам Visa [14] https://www.quora.com/How-many-credit-and-debit-card-transactions-are-there-every-year , accessed 24 August 2018. . Каждый раз, когда покупка оплачивается кредитной картой, регистрируется потраченная сумма, валюта, продавец, дата и время транзакции, а также многие другие детали, общий список которых включает 70–80 пунктов. Большую часть этой информации составляют данные, необходимые для совершения транзакции и списывания суммы с соответствующего счета – это обязательная часть операции, поэтому пропуск таких деталей маловероятен или даже невозможен. Например, операция не может быть выполнена без информации о том, сколько взимать или с кого взимать. Но есть и такие данные, которые не критичны для проведения операции, поэтому существует вероятность того, что они не будут собраны. В частности, номер партии товара, его идентификационный код или цена за единицу не являются обязательной информацией для проведения транзакции. Очевидно, что это DD-тип 1: данные, о которых мы знаем, что они отсутствуют .

Что еще хуже, во всяком случае в отношении темных данных, клиенты рассчитываются за покупки не только кредитными картами, но и наличными. Это означает, что реестр всех покупок и транзакций, созданный на основе данных по кредитным картам, будет содержать невидимые массивы темных данных – DD-тип 4: самоотбор . Вдобавок существует несколько операторов кредитных карт. Данные одного оператора не могут считаться репрезентативными для всей совокупности держателей кредитных карт и уж тем более для населения в целом. Таким образом, несмотря на многообещающие перспективы, административные данные имеют скрытые недостатки, связанные с темными данными.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Представляем Вашему вниманию похожие книги на «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Обсуждение, отзывы о книге «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x