Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Здесь есть возможность читать онлайн «Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2016, ISBN: 2016, Издательство: АСТ, Жанр: Базы данных, foreign_comp, foreign_edu, Прочая научная литература, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Однако слова, которые мы используем, способны рассказать куда более интересную историю, чем язык в целом. Слова представляют собой окно в мир наших мыслей, нравов и общества в целом. Поэтому давайте обратимся от механизма коммуникации к сути наших мыслей.

Папа, откуда берутся бэбиситтеры?

В середине XX столетия людям все больше нравилась идея ухода за ребенком ( baby) с помощью специально нанятого человека ( sitter ). Поскольку у слов baby и sitter имелось немало сопоставимых интересов, они стали проводить много времени вместе, и в какой-то момент все чаще употреблялось слово baby sitter [112].

Затем люди принялись соединять их. Поначалу связь осуществлялась через дефис. По мере того как отношения между этими словами становились все более тесными, слово baby-sitter все чаще замещало собой слова baby sitter .

Со временем baby и sitter поняли, что им суждено быть вместе навсегда. Из этого союза родился ребенок. И именно поэтому, дорогой малыш, твои родители оставляют тебя со мной ( babysitter) .

Глава 4 Семь с половиной минут славы В ассенизации нет ничего сексуального - фото 11

Глава 4

Семь с половиной минут славы

В ассенизации нет ничего сексуального. Однако это может быть настоящим подвигом героя.

Стоит вспомнить хотя бы историю Геракла, полубога-героя из греческой мифологии. Пятый из двенадцати подвигов Геракла состоял в том, чтобы вычистить Авгиевы конюшни, в которых жили тысячи бессмертных коров. Поскольку конюшни не чистили 30 лет, в них скопилось немало навоза. Геракл сделал так, что две бурные реки изменили свой ход и за один-единственный день вымыли из конюшен все нечистоты. Его героический поступок до сих пор остается одним из величайших достижений в анналах ассенизаторского дела.

Через много тысячелетий, в будущем, такие же легенды будут рассказывать о Юане Шэне, нашем Геракле компьютерного мира. Компания Google провела 5 лет на богатейших пастбищах мирового знания, миллионами поглощая книги благодаря передовому процессу сканирования и обработки текста. Однако неизбежным побочным продуктом создания крупнейшей в мире «конюшни» книг, получивших бессмертие благодаря оцифровке, стал значительный объем загрязненных данных. Большие данные наполнены неразберихой. Пришло время вычистить конюшни.

Пора начинать процесс очистки

Сколько времени вы потратили на работу с каталогом библиотечных карточек?

Система карточек представляет собой сердце библиотеки. Для каждой книги в библиотеке заводилась карточка, содержащая важнейшие данные: ее название, имя автора, тему, год публикации, а также крайне важный справочный номер, показывавший, где находится книга. Посетители библиотеки могли проводить за работой с каталогами целые дни, а содержащаяся в каталоге информация, в свою очередь, направляла их в самые дальние уголки здания.

Без каталога библиотека превращается в обычную огромную комнату, в которой царит неразбериха, – в ней невозможно найти ровным счетом ничего.

На протяжении многих столетий одна из самых важных мировых библиотек, Archivio Segreto Vaticano («Секретный архив Ватикана»), выглядела именно так [113]. Ей явно недоставало серьезного каталога карточек для книжного собрания, занимавшего свыше 52 миль пространства книжных полок. Что же там было? Даже люди с неограниченным доступом могли ответить на этот вопрос странной смесью фактов, слухов и легенд. Для того чтобы найти книгу, нужно было знать кого-то, кто знал еще кого-то, кто (возможно) знал, где находится книга. В архиве хранятся бесценные манускрипты, начиная с VIII века (например, материалы суда над Галилеем по обвинению в ереси), однако поиск этих сокровищ превращался в приключение, достойное Индианы Джонса. Что ж, это тоже можно считать способом хранения секретов.

Для нас, как и для любых других пользователей библиотек, самого по себе доступа к книгам было далеко не достаточно. Если мы хотели сравнить тексты из различных мест и времен, то нам были просто необходимы точные метаданные каталогов из карточек, где было написано, как найти каждую книгу, чтобы знать, как классифицировать ее в контексте автоматизированного анализа.

Поначалу мы посчитали это не особенно большой проблемой – Google собрала свой список покупок из 130 миллионов книг, используя информацию каталогов из сотен источников. (В наши дни каталоги на основе карточек, имеющиеся в крупнейших библиотеках, уже были компьютеризированы – одно из первых преимуществ, – а физические карточки часто оказываются в удаленных уголках складов.) Оказалось, однако, что каталоги на основе карточек, даже лучшие, полны ошибок.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Представляем Вашему вниманию похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Обсуждение, отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x