Существует и другой, менее формальный метод консолидации: изобретательные программисты, получив (легально или нелегально) доступ ко множеству баз данных, могут объединять в единый реестр рассредоточенные сведения о человеке. Чем больше общих элементов (таких как имя, адрес, номер удостоверения личности) в различных базах, тем проще становится такое импровизированное соотнесение данных.
В итоге системы управления личными данными, скорее всего, разовьются в сложную распределенную структуру, где часть данных собирается и обрабатывается при посещении пользователем физических точек и интернет-сайтов, часть вводится непосредственно пользователем (как в онлайн-резюме или на персональной странице), а часть управляется специальными сторонними организациями, чей статус гарантирует полноту и достоверность сведений. Параллельно будут распространяться и, вероятно, законодательно регулироваться услуги перевода данных между хранилищами, а также соотнесения и перепроверки данных из различных источников. Так или иначе, у каждого жителя опутанного электронными сетями мира кроме поддающегося проверке имени есть и обширный, привязанный к этому имени архив сведений о совершенных в прошлом действиях. От этих сведений зависит наша репутация, из-за них нас могут привлечь к разного рода ответственности, и в итоге нам придется начать обсуждать условия, на которых они собираются, предоставляются и сравниваются между собой.
Крупномасштабное объединение баз данных – вопрос не только технической эффективности: этот процесс может фундаментально изменить условия жизни в городе. До недавнего времени конфиденциальность определялась масштабом: в маленьких традиционных деревнях ее уровень был, как правило, весьма невысок, зато большие современные города давали возможность раствориться в многоликой толпе. Она также зависела от расстояния до мест, где хранятся данные: человек мог оставить свое темное прошлое в родном городке и вступить во французский Иностранный легион или просто переехать в Лос-Анджелес. В современной глобальной деревне сбор, хранение и соотнесение электронных данных вместе с технологиями их анализа и высокоскоростной передачей информации радикально сместили естественный баланс сил в пользу сыскных организаций и составителей списков. Там, где не принимаются строгие меры защиты частной жизни, компьютеры сводят на нет эффект масштаба, а сети – расстояние.
Сопоставление и классифицирование
Имея в своем распоряжении базы данных, собранные в результате наблюдения или отслеживания, администраторы доступа могут применять программы поиска по интересующим их параметрам 15. К примеру, фотографии пассажиров, сделанные на входе в зону вылета, можно сопоставить с изображениями подозреваемых в терроризме. Алгоритм выполнения таких задач основан на статистическом анализе, поэтому ему необходимо установить порог чувствительности. Если порог слишком высок, операторы получат совсем немного совпадений, и высока вероятность того, что террористы проскочат неопознанными. При заниженном пороге, напротив, большое количество ложных совпадений приведет к тому, что система утратит доверие, как тот пастушок, что кричал: «Волки!»
На более абстрактном уровне администраторы могут заняться поиском каких-то характерных особенностей в личных данных и сведениях о поведении. Это похоже на поиски нескольких одинаково изогнутых соломинок в стоге сена, и тем не менее новейшие методы анализа в сочетании с большими вычислительными мощностями делают эту задачу выполнимой. К примеру, Агентство по безопасности на транспорте США ведет разработку системы анализа поведения пассажиров CAPPS II 16. Компании – эмитенты кредитных карточек уже много лет подвергают анализу данные о транзакциях для выявления мошенничества. Финансовые организации тоже начали отслеживать и сопоставлять сведения о деятельности своих клиентов, сообщая в правоохранительные органы и разведслужбы о вызывающих подозрение случаях 17. Разумеется, важнее всего тут – что это за «характерные особенности» мы ищем в личных данных, что именно администраторы допуска считают «опасным» или «подозрительным».
Но заранее определять представляющие интерес параметры не всегда обязательно. Многие десятилетия цифровые систематики и специалисты по кластерному анализу рассчитывали степень подобия между численными описаниями различных явлений (например характеристик покупательской активности) и использовали эти расчеты для создания классов подобия. Особенно хорошо разделять клиентов по типам покупательского поведения научились компании розничной интернет-торговли. Они используют эти данные для точечного маркетинга – не успели вы зайти на сайт, как вам уже рекомендуют книги или компакт-диски. Это вполне безобидно, если вас поместили в группу любителей, скажем, английской романтической поэзии, но если вы оказались в компании ценителей пособий по производству взрывчатки и политических трактатов экстремистского содержания, это может привлечь нежелательное внимание.
Читать дальше
Конец ознакомительного отрывка
Купить книгу