Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Здесь есть возможность читать онлайн «Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2016, ISBN: 2016, Издательство: АСТ, Жанр: Базы данных, foreign_comp, foreign_edu, Прочая научная литература, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

И исправление этих ошибок отнимает массу времени. Карточек слишком много, и даже самые большие энтузиасты библиотечного дела не всегда замечают ошибку. Иногда ошибка не позволяет пользователю найти нужную карточку (по принципу «ничего не вижу, ничего не слышу, ничего не говорю») или же кроется в неправильном указании места публикации книги. До тех пор пока справочный номер остается точным, пользователь все равно находит книгу. Неверные метаданные на карточке не особенно беспокоят читателя, поскольку на титульной странице книги его ждет точная информация [114].

Со временем легионы неисправленных ошибок перекочевали из физических каталогов на основе карточек в каталоги цифровых карточек, затем в созданную Google «мать всех каталогов», а затем и в наши информационные массивы. В отличие от людей, желающих прочитать одну книгу, для нас ошибки представляли особую опасность. Ведь мы просто не могли позволить себе вручную просмотреть каждую из миллионов книг. Однако ошибок в карточках было слишком много. При использовании наполненного ошибками каталога метаданных для создания таблиц n -грамов результаты были порой настолько искажены, что от них попросту не было никакой пользы. Так, по нашим изначальным расчетам выходило, что одна наша подруга, работавшая в соседнем офисе, испытала взрывообразный рост популярности в XVI веке. Когда мы рассказали ей об этом, она сказала, что не настолько стара. Либо она нам лгала, либо перед нами возникла довольно серьезная проблема.

Что было делать?

Поскольку мы не могли проверить данные каждой книги вручную, то решили написать компьютерные алгоритмы для поиска подозрительных карточек – точнее, всего того, что давало основания полагать, будто на карточке размещена ошибочная информация. Возьмем, к примеру, журналы. Обычно библиотеки присваивают каждому выпуску серийного издания – будь то газета, научный журнал или любое другое периодическое издание – дату публикации первого номера. Это значит, что, по данным нашего каталога карточек, каждый номер журнала Time был опубликован в 1923 году. Понятно, что с точки зрения наших целей это была огромная проблема.

Для ее решения мы написали алгоритм с названием Serial Killer («серийный убийца») для поиска всего, что могло бы выглядеть как серийное издание. Другой алгоритм, Speed Dater («экспресс-датировщик»), пытался определить, когда была опубликована книга, основываясь на содержавшемся в ней тексте [115]. При совместном применении оба эти алгоритма помогли нам выявить подозрительные карточки и соответствующие им книги. Затем мы исключали эти книги из нашего анализа.

Мистер чистота

Наконец летом 2009 года Юань совместил эти методы со своими программными мускулами, чтобы удалить весь мусор, переполнявший наши большие данные. Мы прополоскали в реке вычислений тексты миллионов книг. Эта операция была настолько масштабной, что даже запустила внутренние системы предупреждения Google . После этой ассенизации легендарных масштабов в нашем распоряжении осталась лишь малая доля первоначальных данных. Тем не менее массив был беспрецедентным с точки зрения размера и исторической глубины – 500 миллиардов слов, написанных в течение пяти столетий на семи различных языках. В нем содержалось более 4% всех когда-либо опубликованных книг.

Не менее важно и то, что этот огромный массив данных был по-настоящему блестящим. Несмотря на то, что общий объем текста в тысячу раз превосходил геном человека, он был – буква за буквой – в десять раз более точен, чем последовательность, о которой сообщал проект «Геном человека» [116].

Теперь, после того как тексты и метаданные каталогов на основе карточек были уточнены, созданные на их основе списки n -грамов стали выглядеть просто отлично. Мы ясно видели широкий спектр лингвистических и культурных изменений, таких как переход от throve к thrived или движение от telegraph («телеграф») к telephone («телефон») и television («телевидение»). Выражаясь научным языком, с данными n -грамов у нас возникла любовь с первого взгляда.

Однако, подобно многим другим летним романам, наши отношения с n -грамами вскоре столкнулись с осенними проблемами. Юань заканчивал интернатуру с начала учебного года, и мы вскоре оказались за пределами Google , а соответственно, все наши данные были спрятаны за брандмауэрами компании.

Нам было необходимо, чтобы Google отправила нам данные. Однако интернет-гигант этого не хотел. По мнению Google , работа с данными n -грамов оставалась довольно деликатным делом. Массив данных был сформирован из полного текста 5 миллионов книг, и юридический расчет Google был прост. Пять миллионов книг соответствуют пяти миллионам авторов – иными словами, пяти миллионам истцов в рамках огромного иска, который мог появиться в случае утечки. Мы проектировали набор данных в виде тени ( n -грама), чтобы обойти эту проблему. Мы подсчитывали слова вместо того, чтобы записывать длинные последовательности текста. Однако наша ловкость рук еще не проходила проверки судами [117]. Было вполне понятно, чего опасается Google .

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Представляем Вашему вниманию похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Обсуждение, отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x