Яркий пример того, как используются неявные данные, – когда по фото и видео с митингов распознают и арестовывают их участников, а тех, кто нарушил режим самоизоляции во время пандемии COVID-19, распознают по камерам наблюдения и штрафуют. Всего каких-то пятнадцать лет назад это казалось фантастикой. Эндрю Ын, главный эксперт, который стоит за алгоритмами распознавания по изображениям и которого я не раз упоминал в этой книге, сказал, что это двойственная технология: с одной стороны, она служит добру, с другой – ею легко злоупотреблять.
В наше время технология распознавания лиц уже отлично отработана, нужен всего лишь хороший датасет и доступ к камере. В статье «Мы создали “невероятную” систему распознавания лиц» [91] журналисты собрали небольшой датасет из публично доступных фотографий людей, работающих в районе Bryant Park. Они загрузили их в соответствующий сервис Amazon и буквально за 9 часов получили 2750 совпадений лиц с их датасетом. На все было потрачено всего 60 долларов. В принципе, такой датасет несложно собрать на основе социальных сетей – там есть сопоставление имени и фотографии. Раньше был условно-бесплатный сервис findface.ru (сейчас findface.pro), в который можно загрузить фотографию человека и получить его имя. В качестве датасета была использована социальная сеть «ВКонтакте».
Следующий источник неявных данных – считывание нашей точной геопозиции через смартфоны. Газета New York Times в конце 2019 года создала специальный проект «The Privacy Project» [87], где в серии статей освещаются разные вопросы сбора и использования наших данных. В статье из этой серии «One Nation Tracked» [88] рассказывается про то, как журналисты раздобыли очень большой датасет. В нем находится 50 миллионов геопозиций мобильных телефонов 12 миллионов американцев нескольких крупных городов США, включая Вашингтон, Нью-Йорк, Сан-Франциско и Лос-Анджелес. Каждая строка датасета включает в себя точное местоположение отдельного смартфона в течение нескольких месяцев 2016–2017 годов. Журналисты сделали исследование датасета и шикарную анимацию этих данных. Вроде бы данные полностью анонимизированные и поэтому безопасны, но, к великому сожалению, это не так. Пол Ом (Paul Ohm), профессор права и исследователь конфиденциальности Джорджтаунского университета, заявил в статье, что попытка представить данные геопозиций как анонимные – совершенно ложное утверждение, которое было опровергнуто множеством исследований. «Действительно точную геолокацию невозможно анонимизировать», он также добавил: «ДНК – это единственная вещь, которую сложнее анонимизировать, чем геолокацию». В большинстве случаев перемещение смартфона между домом и работой позволяет идентифицировать человека. Стал бы еще какой-то другой смартфон перемещаться между вашим домом и работой, кроме вашего? Эта статья подтверждает мое мнение, что использование неявных данных плохо защищается.
До широкого появления смартфонов нас уже «посчитали» дома и на рабочем месте через наши веб-браузеры. Куки (cookies) – небольшой фрагмент данных, который сохраняется веб-сервером на компьютере пользователя в процессе просмотра страниц. Сами куки были придуманы в июне 1994 года сотрудником Netscape Communications Лу Монтулли. Тогда они стали решением проблемы надежной реализации виртуальной корзины покупок. В течение двух лет куки приобрели огромную популярность и стали стандартом. В настоящее время существует несколько видов кук, о которых подробно рассказывается в любых курсах веб-аналитики, меня интересуют только два из них:
• Постоянные (persistent first-party cookies) – постоянные куки, которые хранятся в основном домене просматриваемого сайта из адресной строки браузера. Например, вы зашли на ozon.ru, куки этого типа будут сохраняться в «папку» ozon.ru.
• Сторонние (persistent third party cookies) – постоянные куки, которые хранятся на стороннем домене, не совпадающем с адресной строкой. Обычно они сохраняются через сторонний контент на странице, например через картинки с других доменов. Например, рекламная система doubleclick сохранит свою куку в папку doubleclick, несмотря на то что вы находитесь на сайте ozon.ru.
Первый используется для хранения ваших данных и авторизации, а также для веб-аналитики сайта. Например, когда вы заходите на сайт и авторизуетесь, то за счет куки второй тип – самый спорный. Сторонние куки можно использовать для трекинга вашего перемещения между сайтами, а также в интернет-рекламе и для передачи ваших данных сторонним ресурсам. Рассмотрим это на примере протокола RTB (Real Time Bidding) [89], который используется для мгновенного показа персонализированной рекламы через баннеры и видео. Часть мест на контентных сайтах, а это 2.5 миллиона из 4 миллионов сайтов рунета, выкупается большими компаниями (например, Google или Criteo), которые перепродают их своим клиентам по принципу аукциона. Упрощенная схема проста – кто больше дал ставку за показ, тот и будет показывать свой баннер. Сам аукцион выглядит следующим образом:
Читать дальше
Конец ознакомительного отрывка
Купить книгу