Оуад потратил изрядное количество времени на организацию и проведение своего эксперимента. Ему пришлось написать собственный код для загрузки данных и вручную произвести поиск по базе данных. Однако то, что Оуад сделал вручную, можно более эффективно выполнить автоматически, используя алгоритмы интеллектуального анализа данных, которые позволяют извлекать информацию одновременно из многих различных сайтов. Одна из основных характеристик компьютерной сети – взаимосвязь разнообразных хранилищ информации. «Открытость» баз данных представляет собой основной источник мощи Всемирного компьютера. Однако это также позволяет легко обнаружить скрытые взаимосвязи между отдельными фрагментами данных. Проанализировав эти отношения, можно обнаружить на удивление обширный кладезь конфиденциальной информации о веб-пользователях.
В 2006 году на конференции ученых в области компьютерных наук, состоявшейся в Сиэтле на той же неделе, когда в прессе появилась информация о личности Тельмы Арнольд, пять ученых из Миннесотского университета представили документ под названием «Вы есть то, что вы говорите: угрозы конфиденциальности, связанные с публичными высказываниями» (You Are What You Say: Privacy Risks of Public Mentions). Они описали, как можно использовать программы для объединения онлайновых баз данных. Находя пересекающиеся данные, эти программы создают подробные личные профили людей, даже когда те предоставляют информацию анонимно. Такое программное обеспечение базируется на простом и очевидном принципе: люди, как правило, выражают свои интересы и мнения на разных сайтах в интернете. Они могут, например, купить альбом в музыкальном магазине iTunes, включить этот альбом в свой плейлист на сервисе Last.fm, оценить его на сайте Rate Your Music и упомянуть о нем в комментарии в музыкальном блоге. Или же отредактировать статью в энциклопедии Wikipedia, посвященную их любимому актеру, написать рецензию на его новую биографию на сайте Amazon, стать его «другом» в социальной сети MySpace и отметить его фотографии на сервисе Flickr. Сложные алгоритмы определяют такие соответствия и используют их для очень точного определения конкретных личностей, как это сделали исследователи из Миннесоты. Проанализировав всего две базы данных: одну с сайта, содержащего рейтинги фильмов, и вторую из форума, посвященного обсуждению фильмов, – они обнаружили, что их алгоритм смог успешно идентифицировать 60 % из тех, кто упомянул восемь или более фильмов.
«В современном богатом данными сетевом мире, – объясняют они в своей статье, – люди рассказывают в интернете о многих аспектах своей жизни. Обычно эти аспекты рассредоточены: вы можете писать вольные рецензии на фильмы в своем блоге под псевдонимом и в то же время участвовать в обсуждениях на форуме или сайте, посвященном медицинской этике, под своим реальным именем. И все-таки эти отдельные личности могут быть связаны» с помощью алгоритмов интеллектуального анализа данных. Такой автоматизированный процесс идентификации, утверждают они, «создает для пользователей серьезные угрозы конфиденциальности». Даже если люди нигде не проявляют свои настоящие личности, их имена, как правило, легко выяснить, если они выдают очень небольшое количество идентифицирующих характеристик. Авторы отмечают, что имя и адрес подавляющего большинства американцев могут быть определены, если известны лишь их почтовый индекс, день рождения и пол – три фрагмента информации, которые люди регулярно предоставляют при регистрации на сайте.
«У вас больше нет частной жизни, – заметил еще в 1999 году Скотт Макнили, бывший исполнительный директор компании Sun Microsystems. – Смиритесь с этим». Бытует мысль о том, что за удобство интернета приходится платить потерей конфиденциальности, и в этом есть доля правды. Однако мало кто из нас осознаёт, в какой степени мы раскрываем подробности нашей личности и жизни, равно как и то, что эти детали могут быть извлечены из журналов поиска или других баз данных и связаны с нами. И, несмотря на наше отношение к потере конфиденциальности, это далеко не единственная и даже не самая внушительная угроза современного интернета. Математики и программисты продолжают совершенствовать алгоритмы анализа данных и находят новые способы предсказания реакций людей на информацию или другие стимулы, предоставляемые онлайн. Они учатся не только определять нашу личность, но и манипулировать нами, и их открытия в настоящее время применяются на практике компаниями и правительствами, не говоря уже о мошенниках.
Читать дальше
Конец ознакомительного отрывка
Купить книгу