Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Здесь есть возможность читать онлайн «Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2016, ISBN: 2016, Издательство: АСТ, Жанр: Базы данных, foreign_comp, foreign_edu, Прочая научная литература, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

97

Рузвельт поддерживал план, изначально предложенный группой под названием Simplified Spelling Board . См. Wolman David. Righting the Mother Tongue: From Olde English to Email, the Tangled Story of English Spelling. New York: Harper Perennial, 2010. Оригинал письма Рузвельта ( Letter from Theodore Roosevelt to William Dean Howells ) по этому вопросу можно увидеть в виде цифрового факсимиле в Theodore Roosevelt Center at Dickinson State University , доступно в сети Интернет: http://goo.gl/JA8cP.

98

Rolling on floor laughing («катаюсь по полу от смеха»). Если эта аббревиатура вам незнакома, не переживайте – она неизвестна и большинству словарей.

99

Например, как известно, AHD опирается на группу из примерно двухсот экспертов в области языка из разных областей – от судьи Верховного суда Антонина Скалиа до редактора кроссвордов в газете New York Times Уилла Шортца и писателя, лауреата Пулитцеровской премии Джунота Диаза. Возглавляет ее работу Стивен Пинкер (являющийся также соавтором Michel2011). Экспертная комиссия во многом опирается на противоположный культуромике или статистике текстового корпуса подход. Этот подход полагается не на репрезентативную выборку, а на усилия небольшого количества – лексической элиты.

100

См. ожесточенные споры на эту тему, описанные в: Acocella Joan. The English Wars // New Yorker (14 мая 2012 г.), доступно в сети Интернет: http://goo.gl/wGVHsx; Bloom Ryan. Inescapably, You’re Judged by Your Language // New Yorker (29 мая 2012), доступно в сети Интернет: http://goo.gl/js9VJc; Pinker Steven. False Fronts in the Language Wars // Slate (31 мая 2012), доступно в сети Интернет: http://goo.gl/33vNYT. Споры идут и в научных кругах. См., к примеру, Bergenholtz Henning, Gouws Rufus H. A Functional Approach to the Choice Between Descriptive, Prescriptive and Proscriptive Lexicography // Lexicos 20 (2010), доступно в сети Интернет: http://goo.gl/agXm7S.

101

Все примеры анализа, представленные в главе, подробнее разбираются в Michel2011 и Michel2011S.

102

Мы рассчитали распределение частоты употребления 116 156 уникальных 1-грам (исходных слов) в American Heritage Dictionary . После десятого процентиля, то есть примерно на уровне одно на миллиард, частота резко возрастает.

103

При этом не вполне понятно, должно ли слово состоять исключительно из буквенных символов. К примеру, OED (впервые в своей истории) не так давно добавил статью о символе ♥. См. Ho Erica. The Oxford-English Dictionary Adds «♥» and «LOL» as Words // Time (25 марта 2011 г.), доступно в сети Интернет: http://goo.gl/0RB6EA.

104

Заметим, что этот ципфовский словарь представляет собой всего лишь современную интерпретацию идеи, предложенной Элдриджем и реализованной в AHD (что для улучшения качества словарей может использоваться лексическая статистика). Один из первых и убедительных аргументов в пользу этого подхода появляется в статье Bailey Richard W. Research Dictionaries // American Speech 44, no. 3 (1969). P. 166–172. Доступно в сети Интернет: http://goo.gl/4RqfDu.

105

Категории, исключенные из поиска (составные слова, варианты написания и неопределяемые понятия), выбирались на основании результатов обсуждений с Джозефом Пикеттом из American Heritage Dictionary . Принципы исключения варьируются, но в целом при составлении словарей процесс сознательного исключения всегда шел рука об руку с процессом сознательного включения. Сэмюел Джонсон обсуждает множество примеров исключенных слов в своем знаменитом словаре 1755 года. Пространное рассуждение доктора Джонсона по этому вопросу, приведенное во вступлении, не упоминает небуквенных понятий, однако обращается к трем другим классам исключений. Составные слова в основном исключены: «Составные или двойные слова были чаще всего исключены, кроме случаев, когда у итогового слова появляется иное значение, чем у составляющих его элементов. Таким образом, слова highwayman („разбойник“), woodman („лесник“) и horsecourser („заводчик лошадей“) заслуживают включения в словарь; а для слов типа thieflike („напоминающий вора“) или coachdriver („возница“) специальных статей не требуется, поскольку их смысл не отличается от смысла составляющих их слов». Варианты написания, в основном оставленные в словаре: «Я отказался от некоторых, поскольку они не были необходимыми или показались избыточными; при этом я оставил те, которые по-разному создавались и употреблялись различными авторами, к примеру viscid и viscidity („вязкий“ и „вязкость“), viscous и viscosity („липкий“ и „липкость“)». К тому же правила написания слов были в то время значительно менее стандартизованными. Сложные для определения понятия: «Есть и такие, смысл которых слишком трудноуловим и непостоянен для того, чтобы зафиксировать его в пересказе; это и те слова, которые специалисты по грамматике относят к бранной лексике, и слова из мертвых языков, вынужденным образом превратившиеся в набор пустых звуков. Это и слова, единственный смысл которых состоит в заполнении пауз или обозначении окончания предложения, активно использующиеся в живых языках. Они были исключены, хотя порой их нельзя заменить никакими другими средствами». Он также исключает множество других категорий, которые не отражаются в словарях и в наши дни. Имена: «Поскольку моей целью было создание словаря, содержащего обычные или нарицательные слова, я исключил все, связанное с именами собственными, как, например, „арианский“, „социнианский“, „кальвинистский“, „бенедиктинский“ и „магометанский“; при этом я оставил слова, имеющие более широкий смысл, например „языческий“». Специальная лексика: «Должен признать, что я был вынужден исключить из словаря многие понятия из области искусства или ремесел; это было неизбежно: я не мог ни спуститься в шахты, чтобы изучать язык шахтеров, ни совершить морское путешествие, чтобы усовершенствовать навыки в области навигационных понятий, ни заходить на склады купцов, в магазины торговцев искусством, ни собирать названия приспособлений, инструментов и действий, которые обычно не упоминаются в книгах; я не отказывался от включения в словарь слов, оказавшихся в моем распоряжении или ставших доступными мне благодаря счастливому случаю; однако я считал совершенно бесплодным трудом собирать слова из всего окружающего мира, что было бы сопряжено с многочисленными трудностями». В ходе проведенного нами анализа онлайновый словарь Merriam - Webster часто оказывается богаче OED с точки зрения медицинской лексики, поскольку включает в себя отдельный и обширный словарь медицинских терминов (неопубликованная рукопись). Иностранные слова: «Я фиксировал по мере их возникновения слова, которые используют наши авторы благодаря своему знанию иностранных языков или по причине собственного невежества, тщеславия или следования моде, из-за страсти к новшествам. При этом я тщательно их отбирал и призываю остальных воздерживаться от замещения наших родных слов натурализованными и бесполезными иностранными». Причудливые слова: «Не всегда отсутствие слов в словаре должно восприниматься как упущение. Выражения, активно и повсеместно используемые большой частью людей, возникают случайным и непредсказуемым образом; многие из них появляются для временного или локального удобства, и, активно употребляясь в определенных местах или в определенные моменты времени, практически неизвестны где-либо еще. Такие непостоянные жаргонные средства, все время находящиеся в состоянии роста или исчезания, не могут считаться полезными элементами языка, и, таким образом, им суждено исчезнуть вместе со всем, что не заслуживает сохранения». В английском языке есть множество видов темной материи. См. Johnson Samuel. A Dictionary of the English Language. London, 1755; Merriam-Webster’s Collegiate Dictionary. 11th ed. Springfield, MA: Merriam-Webster, 2003. Также мы рекомендуем книгу Carolino Pedro. English As She Is Spoke. New York: Appleton, 1883.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Представляем Вашему вниманию похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Обсуждение, отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x