LibCat » Книги » Компьютеры и интернет » Базы данных » Джон Келлехер - Наука о данных. Базовый курс

Джон Келлехер - Наука о данных. Базовый курс

Здесь есть возможность читать онлайн «Джон Келлехер - Наука о данных. Базовый курс» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2020, ISBN: 2020, Издательство: Альпина Паблишер, Жанр: Базы данных, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Читать книгу

Название:
Наука о данных. Базовый курс
Автор:
Джон Келлехер
Издательство:
Альпина Паблишер
Жанр:
Базы данных / на русском языке
Год:
2020
Город:
Москва
ISBN:
978-5-9614-3378-4
Рейтинг книги:
3 / 5. Голосов: 1
Избранное:

Добавить в избранное
Отзывы:
Написать комментарий
Ваша оценка:
- 60
- 1
- 2
- 3
- 4
- 5

Наука о данных. Базовый курс: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Наука о данных. Базовый курс»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Сегодня наука о данных используется практически во всех сферах: вы видите подобранные специально для вас рекламные объявления, рекомендованные на основе ваших предпочтений фильмы и книги, ссылки на предполагаемых друзей в соцсетях, отфильтрованные письма в папке со спамом.
Книга знакомит с основами науки о данных. В ней охватываются все ключевые аспекты, начиная с истории развития сбора и анализа данных и заканчивая этическими проблемами, связанными с конфиденциальностью информации. Авторы объясняют, как работают нейронные сети и машинное обучение, приводят примеры анализа бизнес-проблем и того, как их можно решить, рассказывают о сферах, на которые наука о данных окажет наибольшее влияние в будущем.
«Наука о данных» уже переведена на японский, корейский и китайский языки.

Наука о данных. Базовый курс — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Наука о данных. Базовый курс», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема

Шрифт:

↓

↑

Сбросить

Интервал:

↓

↑

Закладка:

Сделать

Этические последствия науки о данных: профилирование и дискриминация

История о том, как Target выявила беременность старшеклассницы без ее согласия и ведома, показывает, каким образом наука о данных может использоваться для социального профилирования не только отдельных лиц, но и меньшинств. Изучая конкретные кейсы целевой рекламы, Джозеф Туроу в своей книге «Ежедневный ты» (The Daily You) рассказывает, как маркетологи используют цифровое профилирование для классификации потребителей на целевых и нецелевых , после чего персонализируют предложения и рекламные акции, адресованные конкретным лицам: «Нецелевые потребители игнорируются или перемещаются на другие продукты, которые маркетологи сочтут более подходящими их вкусам или доходам» {12} . Такая персонализация может привести к привилегиям для одних и понижению социального статуса других. Ярким примером этого является дифференцированное ценообразование на сайтах, где с одних клиентов взимают больше, чем с других, за один и тот же продукт, основываясь на их профилях {13} .

Часто эти профили создаются путем получения данных из нескольких отрывочных источников с высоким содержанием шума. Поэтому профиль может вводить в заблуждение относительно личности человека. Хуже всего то, что такие маркетинговые профили рассматриваются как продукты и продаются другим компаниям, в результате чего негативная маркетинговая оценка может преследовать человека в разных областях. Мы уже обсуждали использование маркетинговых наборов данных в качестве основы для страхового андеррайтинга {14} , но эти же профили могут влиять и на решения, касающиеся оценки кредитного риска, и на многие другие процессы, влияющие на человеческую жизнь. Два аспекта маркетинговых профилей делают их особенно проблематичными: их природа «черного ящика» и устойчивость. Природа «черного ящика» не позволяет человеку узнать, что о нем записано в профиле, где и когда это было записано и как работают процессы принятия решений, использующие эти данные. В результате если человек попадает в черный список заемщиков или пассажиров авиакомпаний, то «весьма затруднительно докопаться до причин такой дискриминации и оспорить их» {15} . Более того, в современном мире, где компьютерная память обходится дешево, данные часто хранятся в течение длительного срока. Поэтому записи о событиях в жизни человека продолжают существовать еще долго после самого события. Туроу предупреждает: «Превращение персональных профилей в персональные оценки — это результат того, что профиль начинают воспринимать как репутацию» {16} .

Кроме того если использовать науку о данных неосторожно она может увековечить - фото 35

Кроме того, если использовать науку о данных неосторожно, она может увековечить и усилить подобное предубеждение. Часто утверждается, что наука о данных объективна: она основана на числах, поэтому предвзятости, влияющие на человеческие решения, в ней не используются и не кодируются. Однако правда в том, что алгоритмы науки о данных скорее аморальны, чем объективны. Наука о данных выявляет закономерности в данных, однако если данные кодируют предвзятые отношения в обществе, то алгоритм, скорее всего, идентифицирует эту закономерность и будет основывать свои выводы на ней. В самом деле, чем последовательнее предубеждение в обществе, тем сильнее оно будет отражено в данных и тем вероятнее алгоритм извлечет и воспроизведет эту модель предубеждения. Например, проведенное академическое исследование в системе онлайн-рекламы Google, показало, что система чаще предлагала рекламу высокооплачиваемой работы участникам исследования, чей профиль идентифицировала как мужской, по сравнению с участниками, идентифицируемыми как женщины {17} .

Тот факт, что алгоритмы науки о данных могут усилить предубежденность, особенно заметен при их применении полицией. PredPol [29](сокращенно от Predictive Policing) — это инструмент, предназначенный для прогнозирования места и времени вероятного преступления. При развертывании в городе PredPol генерирует ежедневный отчет с указанием на карте горячих точек (небольших участков размером 150 на 150 метров), где, по мнению системы, могут быть совершены преступления, а также помечает каждую горячую точку временным отрезком, в который это преступление вероятно произойдет. Многие полицейские управления в Соединенных Штатах и Великобритании уже используют PredPol. Идея этого типа интеллектуальной системы контроля заключается в более эффективном управлении ресурсами. На первый взгляд такое применение науки о данных кажется разумным, ведь оно может привести к предупреждению преступлений и снижению затрат на работу полиции. Однако встают вопросы о точности предсказаний PredPol и эффективности аналогичных инициатив прогнозирования в полицейской деятельности {18} , {19} , {20} . Также отмечается потенциал этих типов систем для кодирования профилей по расовым или классовым признакам {21} . Развертывание отрядов полиции на основе исторических данных может привести к увеличению полицейского присутствия в определенных районах — как правило, экономически неблагополучных, — что, в свою очередь, приведет к росту ответной криминальной активности в этих районах. Другими словами, прогнозирование преступности становится самоисполняющимся пророчеством. Результатом этого цикла является то, что отдельные районы будут подвергаться избыточному контролю со стороны полиции, что повлечет снижение к ней доверия у жителей этих районов {22} .