Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных

Здесь есть возможность читать онлайн «Дэвид Хэнд - Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2021, ISBN: 2021, Жанр: economics, Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Человечество научилось собирать, обрабатывать и использовать в науке, бизнесе и повседневной жизни огромные массивы данных. Но что делать с данными, которых у нас нет? Допустимо ли игнорировать то, чего мы не замечаем? Британский статистик Дэвид Хэнд считает, что это по меньшей мере недальновидно, а порой – крайне опасно. В своей книге он выделяет 15 влияющих на наши решения и действия видов данных, которые остаются в тени. Например, речь идет об учете сигналов бедствия, которые могли бы подать жители бедных районов, если бы у них были смартфоны, результатах медицинского исследования, которые намеренно утаили или случайно исказили, или данных, ставших «темными» из-за плохого набора критериев для включения в выборку. Хэнд также рассказывает о том, какие меры могут сгладить эффект «темных данных» и как их можно обратить себе на пользу. Книга будет интересна широкому кругу читателей, интересующихся дата-сайенс, программированием и статистикой.

Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Первый – известная карикатура, на которой изображен человек, стоящий перед большой картой, какие обычно висят на вокзалах. В центре карты находится красная точка с надписью «Вы здесь». «Как?! – думает потрясенный человек. – Как они узнали это?» Они узнали, потому что отталкивались от простого факта, что каждый , кто смотрит на эту красную точку, должен находиться непосредственно перед ней. Мы имеем дело с очень узкой выборкой, отсекающей всех, кто находится в другом месте.

Данные могут быть собраны, только если имеется кто-то или что-то для их сбора, например измерительный прибор. Второй пример самоотбора связан с антропным принципом , который, по сути, говорит, что Вселенная должна быть такой, какая она есть, а иначе нас бы просто не существовало и мы бы не смогли наблюдать ее. У нас нет данных из разных вселенных по одной простой причине – мы там не были. Это означает, что любые выводы, которые мы делаем, неизбежно ограничиваются нашей Вселенной (а точнее, вселенными такого же типа): как и в случае с бостонскими выбоинами, может происходить масса всего, о чем мы не знаем.

Из этого примера наука может извлечь для себя важный урок. Теория может идеально согласовываться с данными, но сами данные имеют ограничения. И это относится не только к сверхвысоким температурам, геологическим эпохам или космическим расстояниям. Если вы экстраполируете теорию за пределы, в которых были собраны данные, то всегда есть вероятность того, что она окажется недействительной. Экономические теории, основанные на данных, собранных в период процветания, часто оказываются несостоятельными во время рецессии, а законы Ньютона работают только тогда, когда речь не идет о крошечных объектах, высоких скоростях и прочих крайностях. В этом и заключается суть темных данных DD-тип 15: экстраполяция за пределы ваших данных .

У меня есть классная футболка от сайта веб-комиксов xkcd.com, на которой общаются два персонажа. Один говорит: «Раньше я думал, что корреляция подразумевает причинность». В следующем кадре он продолжает: «Потом я прошел курс статистики, и теперь я в этом не уверен». Другой персонаж говорит ему: «Похоже, курс помог», а первый отвечает: «Возможно, но не факт» [7] http://archive.defense.gov/Transcripts/Transcript.aspx?TranscriptID=2636 , accessed 31 July 2018. .

Корреляция просто показывает, что две вещи меняются синхронно, например положительная корреляция означает, что когда одно становится большим, то и другое увеличивается, а когда первое уменьшается, то и второе поступает точно так же. Это в корне отличается от причинно-следственной связи. Говорят, что одно становится причиной другого, если изменения первого приводят к изменениям второго. Но проблема в том, что две вещи могут изменяться вместе, но при этом изменения одной не являются причиной изменений другой. Например, наблюдения в начальной школе показывают, что дети с более значительным словарным запасом в среднем выше. Но вряд ли вам придет в голову, что причиной этого являются родители, которые, желая иметь более рослое потомство, нанимают репетиторов для расширения словарного запаса своих детей. Намного вероятнее, что существуют какие-то темные данные, третий фактор, который объясняет корреляцию, например разный возраст детей. Когда персонаж на моей майке говорит «Возможно, но не факт», он признает, что пройденный курс статистики мог изменить его понимание, но при этом допускает наличие и других причин. Далее в книге мы еще столкнемся с поразительными примерами темных данных этого типа, а именно с DD-типом 5: неизвестный определяющий фактор .

Существуют и другие типы темных данных, о которых мы будем говорить. Напомню, что цель этой книги – рассказать о существующей на сегодня классификации темных данных, объяснить способы их идентификации, наглядно продемонстрировать оказываемое ими влияние и показать пути решения проблем, которые они вызывают, а также то, как темные данные можно использовать. Список типов темных данных приводится в конце этой главы, а краткое описание каждого из них вы найдете в главе 10.

Не было ничего необычного, поэтому мы не придали этому значения

Следующий пример служит иллюстрацией того, что темные данные могут иметь катастрофические последствия и что они не являются специфической проблемой больших наборов данных.

28 января 1986 г. на 73-й секунде полета на высоте около 15 км космический челнок Challenger превратился в гигантский огненный шар в результате неисправности ракеты-носителя. Отсек с экипажем какое-то время еще продолжал двигаться по восходящей траектории, достиг отметки 19 км и рухнул в Атлантику. Все семь членов экипажа погибли.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Представляем Вашему вниманию похожие книги на «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных»

Обсуждение, отзывы о книге «Темные данные. Практическое руководство по принятию правильных решений в мире недостающих данных» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x