Несмотря на информационное мастерство, Штази многое было не под силу. Сотрудникам министерства стоило огромных усилий узнать, кто, куда, когда перемещается и с кем разговаривает. Основную часть этой информации теперь собирают операторы мобильной связи. В ГДР не могли спрогнозировать, кто станет диссидентом. Мы тоже не можем. Но правоохранительные органы начинают использовать алгоритмические модели для того, чтобы вычислять время и место патрулирования, узнавая предполагаемый ход развития событий. При этом риски, связанные с большими данными, соразмерны самим наборам данных.
Парализующая конфиденциальность
Велик соблазн ассоциировать угрозу конфиденциальности с ростом объема цифровых данных, проводя аналогию с системой надзора в антиутопии Дж. Оруэлла «1984». На самом деле ситуация гораздо сложнее. Во-первых, не все большие данные содержат личную информацию. Ее нет в данных датчиков на нефтеперерабатывающих заводах, в данных о работе заводских механизмов, о погодных условиях в аэропортах или о взрывах в канализационных люках. Компаниям BP и Con Edison не нужна была личная информация, чтобы извлечь выгоду из выполняемого ими анализа. По сути, анализ больших данных на основе такой информации практически ничем не угрожает конфиденциальности.
И все-таки основная часть создаваемых сегодня данных и вправду содержит личную информацию. Есть ряд довольно веских оснований для того, чтобы записывать ее как можно больше и хранить как можно дольше, при этом часто используя. Данные могут быть не похожи явным образом на личную информацию, но благодаря обработке больших данных по ним можно легко проследить обратную связь с их автором.
Некоторые «умные» электросчетчики, которые внедряются в США и Европе, могут собирать от 750 до 3000 точек данных в месяц в режиме реального времени. Это гораздо больше, чем скудный поток информации о совокупном потреблении электроэнергии, который собирает обычный счетчик. Каждый прибор имеет уникальную «подпись нагрузки» при получении электропитания, которая позволяет отличить холодильник от телевизора, а телевизор — от подсветки для выращивания марихуаны. Таким образом, использование электроэнергии раскрывает личную информацию, будь то ежедневные привычки, медицинские условия или противозаконное поведение. [135] Информация о конфиденциальности и интеллектуальных индикаторах: McNeil, Sonia K. Privacy And The Modern Grid // Harvard Journal of Law & Technology. — 2011. — Vol. 25, no. 1. URL: http://jolt.law.harvard.edu/articles/pdf/v25/25HarvJLTech199.pdf.
Однако не столько важно, увеличат ли большие данные риск нарушения конфиденциальности (а они увеличат), сколько изменится ли сам характер риска. Если угроза просто возрастет, то некоторые законы и правила о неприкосновенности частной жизни подойдут и для эпохи больших данных — потребуется лишь удвоить нынешние усилия. С другой стороны, если ситуация изменится, потребуются новые решения.
К сожалению, проблема все же приобретает новые очертания. Ценность больших данных не ограничивается первичным использованием — существенная ее часть, как мы уже поясняли, состоит во вторичном применении.
Это подрывает главную роль частных лиц в действующем законодательстве о неприкосновенности частной жизни. Сборщики данных должны сообщать им, какую информацию собирают и с какой целью. Чтобы начать сбор данных, сборщикам необходимо получить от частных лиц согласие. Хотя это и не единственный способ обработки личных данных законным путем, понятие «уведомления и согласия» стало краеугольным камнем политики конфиденциальности по всему миру. (На практике это вылилось в огромные примечания о конфиденциальности, которые мало кто читает, не говоря уже о том, чтобы понять, но это уже другая история.)
В эпоху больших данных самые инновационные способы их вторичного использования невозможно было представить на момент их сбора. Как же компаниям уведомлять о цели, которая еще не придумана? И разве станут частные лица давать информированное согласие на неизвестное? А при отсутствии согласия, для того чтобы анализировать большие данные, содержащие личную информацию, потребуется обращаться к каждому лично, спрашивая разрешение на каждое повторное применение. Вы можете себе представить, как Google пытается связаться с миллиардами пользователей, чтобы получить от них разрешение на анализ их старых поисковых запросов с целью спрогнозировать грипп? Ни одна компания не возьмет на себя такие расходы, даже если бы это было технически возможно.
Читать дальше
Конец ознакомительного отрывка
Купить книгу