Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Здесь есть возможность читать онлайн «Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2016, ISBN: 2016, Издательство: АСТ, Жанр: Базы данных, foreign_comp, foreign_edu, Прочая научная литература, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Для ученых эта ситуация ведет к полному изменению правил игры. Мы привыкли к миру, в котором мы создаем или получаем данные, а затем анализируем их любым желательным для нас образом. В некоторых случаях ученому может потребоваться одобрение со стороны научного совета по этике. Однако традиционный подход мог сделать незаконным и неэтичным каждое из исследований в области больших данных, упомянутых нами во «Введении», – от произведенного Левином анализа eBay до проведенного Барабаши исследования движений мобильного телефона. В мире больших данных получить все сразу и проанализировать это позднее невозможно ни по практическим, ни по моральным соображениям. Как можно воспользоваться всеми преимуществами больших данных, если их не хотят – или даже не имеют права – передать нам?

Вопрос Норвига заставил нас задуматься над этой важнейшей проблемой.

Большие данные и их большая тень

Если бы мы попросили Google просто передать нам полные тексты всех книг мира, эта просьба повисла бы в воздухе. К счастью, это было не нужно.

Дело в том, что большие данные отбрасывают большие тени. Подобно тому как тень представляет собой темную проекцию реального объекта – визуальную трансформацию, сохраняющую некоторые характеристики изначального объекта, при этом искажающую остальные, тень данных сохраняет часть изначальной информации. Хотя анализ тени представляет собой скорее искусство, а не науку, он крайне важен для успеха при работе с большими данными. Неправильная тень может оказаться этически сомнительной, юридически ущербной и бесполезной с научной точки зрения. Но если вы выберете правильный угол, то, возможно, вам удастся справиться с юридически и этически чувствительными элементами изначального массива данных, сохраняя при этом значительную часть его содержания.

Если вам повезет, создание тени для набора данных становится простым процессом. Например, часто проблема большого массива данных состоит в том, что он придает огласке конфиденциальную и личную информацию. В этом случае можно просто удалить имя человека, связанного с каждой записью. Но такая простая ситуация возникает крайне редко. Проблема состоит в том, что множество больших массивов данных настолько перенасыщено информацией, что при ближайшем рассмотрении имя человека становится лишним. Данные содержат так много определяющих характеристик, что под них часто подпадает один-единственный житель планеты. И в этом случае удаление имени нам мало чем поможет.

Компания America Online усвоила этот печальный урок в 2006 году, когда, пытаясь помочь научным исследованиям, предоставила в открытый доступ поисковые логи более чем 650 000 пользователей [87]. Разумеется, AOL отредактировала их – имена людей были исключены, а идентификатор каждого пользователя был заменен на ничего не значащую цифровую комбинацию. AOL посчитала, что это обеспечит должную степень конфиденциальности пользователей. Однако компания сильно ошиблась.

Благодаря изучению логов, оказавшихся в открытом доступе, и их перекрестному сравнению с другими широкодоступными данными журналисты из New York Times Майкл Барбаро и Том Целлер-мл. смогли определить личности пользователей. Через несколько дней после выхода данных в свет Барбаро и Целлер заметили, что среди сотен других запросов за трехмесячный период пользователь 4417749 искал «специалистов по ландшафтному дизайну в Лилберне, штат Калифорния» и нескольких людей по фамилии «Арнольд». Быстрое изучение телефонного справочника показало, что этим пользователем, по всей видимости, была 62-летняя жительница Лилберна по имени Тельма Арнольд.

Когда Барбаро и Целлер связались с госпожой Арнольд и прочитали ей текст нескольких запросов из ее поискового лога, она пришла в ярость от того, что сделала AOL : «У всех нас есть право на частную жизнь. Об этом никто не должен был узнать».

AOL поняла свою ошибку и попыталась исправить проблему. Уже через три дня после выхода списка данных компания закрыла к нему общий доступ. Она также принесла свои извинения, уволила исследователя, выпустившего в свет логи, и его начальника. Через несколько недель в отставку подал технический директор AOL . Но было слишком поздно – данные уже разлетелись по Сети. Вследствие своих благородных, но непродуманных действий по содействию исследовательской работе AOL столкнулась с волной вполне заслуженной критики и была вынуждена отвечать за свои действия в суде в ответ на групповой иск. Эта ситуация стала классическим примером того, насколько сложно сделать анонимными большие данные, – а для работников отрасли она стала предостережением: с какими опасностями может столкнуться компания, занимающаяся альтруистическим обменом данными. AOL не получила никаких благ от публикации логов и в конечном итоге заплатила за свои действия огромную цену. Об этом помнил и Норвиг.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Представляем Вашему вниманию похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Обсуждение, отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x