Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Здесь есть возможность читать онлайн «Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2016, ISBN: 2016, Издательство: АСТ, Жанр: Базы данных, foreign_comp, foreign_edu, Прочая научная литература, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Если быть более точными, наша идея состояла в том, чтобы создать теневой массив данных, содержащий одну запись для каждого слова и фразы, появлявшихся в написанных на английском языке книгах.

Эти слова и фразы – в компьютерных науках для этого используется забавный термин n -грам – включают 3.14159 (1-грам), banana split (2-грам) и the United States of America (5-грам). Для каждого слова и каждой фразы запись могла бы состоять из длинного списка чисел, показывающих, насколько часто определенный n -грам появлялся в книгах, год за годом, за последние 5 столетий. Это не просто невероятно интересно, но и стало бы юридически безупречным решением. Насколько мы могли судить, против Реймер никогда не подавались иски за публикацию алфавитной версии чужого произведения.

Однако здесь имелась определенная опасность: что, если какой-нибудь хакер вычислит, как использовать общедоступные данные о частоте слов и фраз для восстановления полного текста всех книг? Сборка огромного текста из крошечных, перекрывающих друг друга кусочков – не такая уж безумная затея. По сути, подобный метод лежит в основе современных работ по секвенированию генома [89].

Для решения этой проблемы мы положились на статистический факт – в любой книге не нужно далеко ходить, чтобы отыскать уникальную фразу. Например, предыдущее предложение было, возможно, единственным в мире упоминанием фразы «отыскать уникальную фразу» или, как минимум, было таковым до тех пор, пока мы не повторили его еще один раз. Поэтому мы добавили простое решение: наша тень не будет включать данные о частоте употреблений для слов и фраз, встреченных лишь несколько раз. При условии такой модификации восстановление полных текстов будет невозможным с математической точки зрения. Возникающая в результате тень – n -грамы – показалась нам исключительно многообещающей. Тексты, защищенные копирайтом, не подвергались бы никакой угрозе (критерий 1). Мы знали, как из своей работы с неправильными глаголами, так и из анализа произведения Реймер, насколько много можно узнать от одного лишь отслеживания частоты употребления отдельно взятого слова (критерий 2). Это могло бы стать новым мощным способом для поиска концепций, а следовательно, и привлекательной идеей для компании, занимающейся проблемами поиска (критерий 3). А подсчет слов представляет собой, возможно, самую простую форму работы в области компьютерных наук (критерий 4).

Разумеется, если мы ограничим себя данными n -грамов, то слова окажутся практически лишенными любого контекста, то есть мы не сможем сказать, пишет ли кто-то об Элиа Казане как о великом режиссере или же о предателе своих друзей во времена «красной угрозы». Однако это не ошибка системы, а ее свойство: именно контекст делал данные юридически шаткими. Освободившись от контекста, мы могли бы заявить о том, что наша тень набора данных и связанные с ней инструменты могли бы стать открытыми не только для нас как исследователей, но и для всего мира. Наша тень нащупала важную точку – вы можете извлекать максимум пользы и удовольствия, не нарушая при этом закон. Нашим ответом на все вопросы стали n -грамы. Норвиг немного подумал над этой идеей, а затем решил, что можно попробовать. Он помог нам собрать команду – инженеров из Google Йона Орванта и Мэтта Грея, а также нашего интерна по имени Юань Шэнь. И вдруг мы поняли, что у нас появился доступ к самой большой коллекции слов в истории.

Лидеры свободного слова

Язык состоит из слов. Но что такое «слово»?

Это довольно непростой вопрос. Давайте посмотрим на политиков. В ходе всей своей карьеры президент Джордж Буш-младший время от времени довольно творчески обходился с языком, например добавляя приставку mis- («лже-») перед словом underestimated («недооцененный»). Эти «бушизмы» сделали его предметом множества шуток и издевательств на вечерних юмористических телешоу. Язык, используемый политиками, подвергается настолько внимательному изучению, что даже такая, на первый взгляд, мелочь, как ошибка в орфографии, может стать по-настоящему злободневным вопросом [90]. В своих мемуарах бывший вице-президент Дэн Куэйл, публично опозорившийся тем, что неправильно написал слово potato , описывал случившееся так: «Это было не простой оплошностью, а поистине решающим моментом, причем самого худшего порядка». С публичными насмешками столкнулась и Сара Пэйлин после того, как использовала в «Твиттере» странное слово refudiated (Пэйлин пыталась сказать, что, подобно всем другим политикам, она является объектом двойных стандартов) [91]. Тем не менее после этого Пэйлин написала следующий твит: «Английский – это живой язык. Шекспир тоже любил придумывать новые слова» [92].

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Представляем Вашему вниманию похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Обсуждение, отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x