Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Здесь есть возможность читать онлайн «Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2016, ISBN: 2016, Издательство: АСТ, Жанр: Базы данных, foreign_comp, foreign_edu, Прочая научная литература, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

В результате у лексикографов формируются свои личные впечатления от кандидата в слова, они пытаются вычислить, насколько эти впечатления истинны [101]. Один знакомый нам лексикограф использует для этого следующий критерий: он пытается найти четыре примера этого слова в не связанных между собой текстах. Консенсус в лексикографическом сообществе желателен, однако когда речь идет о техническом жаргоне – например, о решении, включать ли в словарь слово «графен», – решение остается на усмотрение одного консультанта, имеющего определенные знания в области физики. Создание словарей – это не наука. Это искусство, которому уже много столетий.

Возьмем к примеру American Heritage Dictionary Его четвертое издание было - фото 7

Возьмем, к примеру, American Heritage Dictionary . Его четвертое издание было опубликовано в 2000 году, через восемь лет после третьего. За эти годы в языке появились новые слова. Редакторы AHD предприняли немалые усилия по их выявлению. Их трофеи включали в себя amplidyne («разновидность силового генератора»), mesclun («разновидность салата»), netiquette («сетевой этикет») и phytonutrient («химические вещества, придающие растениям цвет, запах и вкус»). Можно ли считать такой подход удачным?

График четко показывает, что успех AHD весьма относителен. В случаях mesclun и netiquette составители явно опоздали. Если судить по критерию частоты, оба слова вполне могли попасть в AHD уже в 1992 году. В случае amplidyne они опоздали еще сильнее; пик использования этого слова пришелся на начало XX века, и в наши дни слово уже полностью устарело. Несмотря на все свои усилия, лексикографам не удается вовремя выявить новые слова, и порой они могут отставать на десятилетия.

Увидев этот график, мы поняли, что (по крайней мере, когда речь заходит о выявлении слов) способность прочитать миллиарды предложений после одного нажатия кнопки может быть для лексикографов настоящим подарком небес.

Словарь по принципу «Сделай сам»

Мы решили создать свой собственный описательный словарь, состоящий из всех слов современного английского языка. Наша идея была простой – если некая последовательность символов достаточно часто встречается в современных текстах, написанных на английском языке, то это – слово. Что такое «достаточно часто»? Естественным было бы использовать для отсечки ту же частоту самых редких слов, которая встречается в словарях. По нашим расчетам, она составила примерно один раз на каждый миллиард слов текста [102]. Поэтому наш ответ на вопрос «Что такое слово?» звучит следующим образом:

Английское слово – это 1-грам, возникающий в среднем не реже 1 раза на каждый миллиард 1-грамов английского текста.

Очевидно, что это не идеальное определение слова. К примеру, включает ли выражение «английский текст» цитату на испанском, которая должна быть включена в абзац на английском? Должен ли текст быть недавним? Должен ли он исходить из книг? Оцифрованной речи? Интернета? Стоит ли нам принимать во внимание типичные опечатки типа excesss (с лишней буквой s в конце)? А что насчет форм с включением цифр, типа l8r (вариант написания слова later – «позднее»)? Может ли считаться словом 2-грам, типа straw man («соломенное чучело»)? [103]

Однако если оставить в стороне эти вопросы, наше определение выглядит достаточно точным – настолько, что, руководствуясь им, договорившись об объеме проверочного текста и имея несколько мощных компьютеров, любой человек может создать объективный словарь английского языка. В этом смысле наше определение значительно лучше субъективных формулировок, которые можно найти во множестве других работ.

Мы хотели убедиться что наш новый ципфовский словарь действительно фиксирует - фото 8

Мы хотели убедиться, что наш новый ципфовский словарь действительно фиксирует современное состояние языка, поэтому мы не просто добавили в базу все имевшиеся тексты [104]. Вместо этого мы взяли десятилетний срез данных – все книги в нашей базе данных опубликованы между 1990 и 2000 годами. Эта коллекция включала в себя более 50 миллиардов 1-грамов. Для того чтобы 1-грам соответствовал установленной нами частоте отсечения (один случай употребления на миллиард), слово должно было появиться в нашей коллекции не менее пятидесяти раз. Итоговый список составил 1 489 337 слов, включая unhealthiness («нездоровье»), 6.24, psychopathy («психопатия») и Augustean («относящийся к эпохе Августа»).

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Представляем Вашему вниманию похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Обсуждение, отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x