Альтернативный вариант — перед сбором получать согласие на любое дальнейшее использование их данных — тоже бесполезен. Такое разрешение «оптом» сводит на нет само понятие информированного согласия. В контексте больших данных проверенная временем концепция «уведомления и согласия» налагает слишком много ограничений для извлечения скрытой ценности данных и слишком бесполезна для защиты конфиденциальности частных лиц.
Кроме того, в эпоху больших данных технические способы защиты неприкосновенности частной жизни тоже сдают свои позиции. Если вся информация находится в наборе данных, ее извлечение само по себе может оставить след. Возьмем, к примеру, функцию Google Street View. Для ее создания собрали фотографии дорог и домов во многих странах (как и многие другие данные — но это спорный вопрос). В Германии компания Google столкнулась с массовым протестом общественности и СМИ. Люди опасались, что фотографии их домов и садов помогут бандам грабителей выбрать выгодные цели. Под давлением регулирующих органов Google согласилась предоставить домовладельцам возможность отказа от участия, которая позволяла размыть изображения их домов. Но результаты этой возможности заметны в Street View — вы видите размытые дома, а грабители могут расценить их как сигнал, что это отличная цель.
Такой технический подход к защите конфиденциальности, как анонимизация, тоже, как правило, неэффективен. Анонимизация подразумевает удаление из наборов данных всех личных идентификаторов (имя, адрес, номер кредитной карты, дата рождения, номер социального страхования и пр.). Полученные данные можно анализировать без ущерба для чьей-либо конфиденциальности. Этот подход работает в мире малых данных. Большие данные упрощают повторное установление личности в связи с увеличением количества и разнообразия информации. Рассмотрим примеры с веб-поисками и оценками кинофильмов, которые, казалось бы, не позволяют установить личность.
В августе 2006 года компания AOL сделала общедоступными горы старых поисковых запросов под благовидным намерением дать исследователям возможность анализировать их в поисках интересных открытий. Набор данных из 20 миллионов поисковых запросов от 650 000 пользователей за период с 1 марта по 31 мая 2006 года был тщательно анонимизирован. Личные данные, такие как имя пользователя и IP-адрес, были удалены и замещены уникальным числовым идентификатором. Таким образом, исследователи могли связать между собой поисковые запросы от одного и того же человека, но не имели информации для установления его личности.
Тем не менее в течение нескольких дней сотрудники New York Times, связав поисковые запросы, такие как «одинокие мужчины за 60», «целебный чай» и «ландшафтный дизайнер в Лилбурне, Джорджия», успешно установили, что пользователь № 4 417 749 — это Тельма Арнольд, 62-летняя вдова из Лилбурна, штат Джорджия. «О Господи, это же вся моя личная жизнь! — сказала она журналистам Times, когда они наведались к ней в гости. — Я понятия не имела, что за мной подсматривают». Последовавшие за этим протесты общественности привели к увольнению технического директора и еще двух сотрудников AOL.
А всего два месяца спустя, в октябре 2006 года, служба проката фильмов Netflix сделала нечто подобное, объявив конкурс Netflix Prize. Компания выпустила 100 миллионов записей о прокате от около полумиллиона пользователей и объявила приз в размере одного миллиона долларов, который достанется команде исследователей, сумевшей улучшить систему рекомендации фильмов Netflix не менее чем на 10%. Личные идентификаторы были тщательно удалены. И снова пользователей удалось разоблачить: мать и скрытая лесбиянка из консервативного Среднего Запада подала в суд на Netflix от имени псевдонима Jane Doe. [136] Компания Netfix вычислила частных лиц: Singel, Ryan. Netflix Spilled Your Brokeback Mountain Secret, Lawsuit Claims // Wired. — December 17, 2009. URL: http://www.wired.com/threatlevel/2009/12/netflix-privacy-lawsuit/.
Сравнив данные Netflix с другими общедоступными сведениями, исследователи из Техасского университета быстро обнаружили, что оценки анонимизированных пользователей соответствовали оценкам людей с конкретными именами на сайте Internet Movie Database (IMDb). В целом исследования показали, что всего по шести оценкам фильмов в 84% случаев можно было верно установить личность клиентов Netflix. А зная дату, когда человек оценил фильмы, можно было с 99%-ной точностью определить его среди набора данных из полумиллиона клиентов. [137] О выпуске данных компании Netflix: Narayanan, Arvind. Robust De-Anonymization of Large Sparse Datasets / Arvind Narayanan and Vitaly Shmatikov // Proceedings of the IEEE Symposium on Security and Privacy. — 2008. — P. 111. URL: http://www.cs.utexas.edu/~shmat/shmat_oak08netflix.pdf. Arvind Narayanan and Vitaly Shmatikov. How to Break the Anonymity of the Netflix Prize Dataset. — ARVIX. — October 16, 2006.
Читать дальше
Конец ознакомительного отрывка
Купить книгу