Как и все примеры, приведенные в этой главе, пример применения регрессионной модели для прогнозирования цен иллюстрирует лишь тип проблемы, которую целесообразно решать с помощью регрессионной модели. Регрессионный анализ может быть использован в самых разных областях, в том числе для решения таких задач, как расчет прибыли, стоимости, объема продаж, спроса, размеров, расстояний, дозировок и объемов.
‹1›. Linoff, Gordon S., and Michael JA Berry. 2011. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management. John Wiley & Sons.
Глава 6. Конфиденциальность и этика
Самый большой вопрос, стоящий сегодня перед наукой о данных, — как найти баланс между свободой частной жизни отдельных лиц и меньшинств и безопасностью и интересами всего общества. В контексте науки о данных этот старый вопрос формулируется с точки зрения того, что считать разумными способами сбора и использования персональных данных в таких разнообразных контекстах, как борьба с терроризмом, улучшение медицины, исследования государственной политики, борьба с преступностью, выявление мошенничества, оценка кредитного риска, страхование и таргетированная реклама.
Наука о данных предлагает свой способ для того, чтобы понять мир. В нынешнюю эпоху больших данных это предложение очень заманчиво, и действительно существует целый ряд аргументов в поддержку разработки и внедрения инфраструктуры и технологий, основанных на данных. Первый аргумент связан с повышением эффективности, экономичности и конкурентоспособности — аргумент, который в контексте бизнеса подтверждается научными исследованиями. Например, исследование, проведенное в 2011 г. с участием 179 крупных публичных компаний, показало, что чем больше решений принимается на основе данных, тем выше производительность: «Мы видим, что фирмы, которые принимают решения на основе данных, имеют производительность на 5‒6 % выше, чем можно было бы ожидать, учитывая другие их инвестиции и использование информационных технологий» {1} .
Еще один аргумент в пользу широкого внедрения методов науки о данных связан с безопасностью. Правительства часто его используют, оправдывая наблюдение и слежку долгосрочным повышением уровня безопасности. Как бы то ни было, начиная с 11 сентября 2001 г. и с каждым новым терактом этот аргумент набирал силу. Его использовали в публичных дебатах, которые начались после того, как Эдвард Сноуден раскрыл информацию о программе наблюдения PRISM Агентства национальной безопасности (АНБ) США, регулярно собирающей данные об американских гражданах. Красноречивым примером силы этого аргумента являются $1,7 млрд, инвестированные АНБ в центр обработки данных в Блаффдейле, штат Юта, который способен хранить огромное количество перехваченных сообщений {2} .
В то же время общество, государственные структуры и бизнес пытаются понять долгосрочные последствия применения науки о данных в мире больших данных. Учитывая быстрое развитие технологий сбора, хранения и анализа данных, неудивительно, что действующая правовая база и более широкие дискуссии вокруг этой темы, в том числе о неприкосновенности частной жизни, пытаются идти в ногу с достижениями прогресса. Несмотря на это, существуют основные правовые принципы сбора и использования данных, которые применимы почти всегда и которые важно понимать. Кроме того, дискуссии об использовании данных и конфиденциальности выявили ряд тревожных тенденций, о которых мы должны знать.
Коммерческие интересы против частной жизни
Науку о данных можно представить как процесс создания процветающего и безопасного мира. Но одни и те же аргументы могут использовать организации, имеющие очень разные повестки. Мы видим противоположные призывы: с одной стороны, от групп защиты гражданских свобод к большей открытости правительств в отношении данных, чтобы граждане могли привлекать правительства к ответственности, и с другой — призывы деловых кругов использовать эти же данные для увеличения прибыли {3} . Поэтому наука о данных — это палка о двух концах. Она может быть использована для улучшения жизни за счет повышения эффективности государственного управления, развития медицины и здравоохранения, удешевления страховки, создания умных городов, снижения уровня преступности и прочего. Но в то же время ее можно использовать для слежки, таргетирования нежелательной рекламы и поведенческого контроля — как в открытую, так и тайно (страх слежки может влиять на нас не менее негативно, чем сама слежка).
Читать дальше
Конец ознакомительного отрывка
Купить книгу