Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Здесь есть возможность читать онлайн «Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2016, ISBN: 2016, Издательство: АСТ, Жанр: Базы данных, foreign_comp, foreign_edu, Прочая научная литература, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Книги.Поначалу наш Ngram Viewer черпал информацию из 4% всех когда-либо опубликованных книг, или примерно одной из каждых двадцати пяти. В 2012 году мы помогли Юрию Лину, Славу Петрову и другим работникам Google обновить версию Ngram Viewer [196]и включить в базу около 6% всех книг, или одну из каждых семнадцати. Разумеется, мы использовали лишь книги, предоставленные Google . Если же включить все тридцать миллионов оцифрованных на данный момент книг, то мы получим немногим более 20% от общего количества [197]. Что же ждет остальные 80%? Когда они смогут попасть в цифровые архивы?

К счастью, все больше новых книг появляется в цифровой форме и распространяется в электронном виде сразу же с момента публикации. Поскольку сейчас издается больше книг, чем когда-либо прежде в человеческой истории, доля книг, существующих в цифровой форме, значительно увеличивается с каждым днем.

Тем не менее у нас все равно остается проблема старых книг, существующих, к нашему неудобству, лишь в виде физических объектов. Именно здесь должны быть сконцентрированы основные усилия в области оцифровки. Частные корпорации и правительства занимаются этим вопросом, желая как сохранить наше коллективное наследие, так и заработать на нем. Во главе процесса остается Google . Компания уже оцифровала свыше 30 из 130 миллионов книг, существующих в наши дни. По ее расчетам, работа будет завершена к 2020 году. Иными словами, есть основания полагать, что вскоре подавляющее большинство имеющихся книг будет доступно в цифровом формате.

С количественной точки зрения это 25-кратное увеличение базы – с 4 до 100% – окажет огромное влияние на качество наблюдений, доступных для нашего культурного телескопа. Как не вспомнить о Галилее, вытолкнувшем Землю с центрального места во Вселенной с помощью телескопа, который был всего в тридцать раз более зорким, чем невооруженный глаз.

Несмотря на это, у нашего процесса изучения книг имеется целый ряд серьезных трудностей.

Первая из них связана с законодательством об авторском праве – более агрессивным, чем во времена По, и настолько же устаревшим. Хорошим примером может служить закон о продлении срока копирайта 1998 года. Согласно этому акту, авторские права на произведения сохраняются в течение 70 лет после смерти автора. По сути, это препятствует онлайновому изучению почти всех книг, опубликованных после 1923 года, причем в законе не делалось исключений для цифровых исследований или цифровых библиотек. Организации наподобие Internet Archive, HathiTrust и проекта «Гутенберг» прилагают массу усилий, чтобы сделать книги максимально доступными [198]. Однако состояние законодательства в области авторского права таково, что они практически бессильны, когда речь заходит о книгах, опубликованных в прошлом столетии.

Это оказывает влияние на остальные элементы нашей информационной экосистемы. Например, наша исследовательская группа под названием «Культурная обсерватория» создала открытые инструменты, более мощные, чем Ngram Viewer, и способные разделять и анализировать данные книг множеством разных способов. Мы способны моментально изучить, как использовалось слово «ворон» на территории Соединенных Штатов в поэтических произведениях авторов в возрасте чуть за тридцать. Но мы можем сделать это только по данным до 1923 года. Когда дело касается прошлого столетия, то любой юрист, стоящий на страже корпоративных интересов, воскликнет (на манер ворона – героя стихотворения По): «Никогда!»

Есть и еще одна, значительно более серьезная опасность, с которой сталкиваются книги. По мере того как цифровые книги и цифровая информация получают все большее распространение, выживание физических книг оказывается под угрозой сразу на нескольких фронтах. Уже через три года после появления на рынке платформы Kindle для чтения электронных книг продажи книг в формате Kindle на сайте Amazon превысили по объему продажи бумажных [199]. И это происходит не только в Amazon – в последние годы произошел вполне заметный сдвиг в сторону электронных книг на любых платформах и от любых продавцов. Разумеется, в долгосрочной перспективе печатный вид сохранят тексты огромной важности и значения, вроде Библии. Однако таких текстов немного. Длинный хвост ципфовского распределения показывает, что печать книг пойдет по пути развития неправильных глаголов. Через несколько лет книги наподобие нашей не будут иметь печатного вида.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Представляем Вашему вниманию похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Обсуждение, отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x