Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры

Здесь есть возможность читать онлайн «Жан-Батист Мишель - Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» — ознакомительный отрывок электронной книги совершенно бесплатно, а после прочтения отрывка купить полную версию. В некоторых случаях можно слушать аудио, скачать через торрент в формате fb2 и присутствует краткое содержание. Город: Москва, Год выпуска: 2016, ISBN: 2016, Издательство: АСТ, Жанр: Базы данных, foreign_comp, foreign_edu, Прочая научная литература, на русском языке. Описание произведения, (предисловие) а так же отзывы посетителей доступны на портале библиотеки ЛибКат.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры: краткое содержание, описание и аннотация

Предлагаем к чтению аннотацию, описание, краткое содержание или предисловие (зависит от того, что написал сам автор книги «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»). Если вы не нашли необходимую информацию о книге — напишите в комментариях, мы постараемся отыскать её.

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры — читать онлайн ознакомительный отрывок

Ниже представлен текст книги, разбитый по страницам. Система сохранения места последней прочитанной страницы, позволяет с удобством читать онлайн бесплатно книгу «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры», без необходимости каждый раз заново искать на чём Вы остановились. Поставьте закладку, и сможете в любой момент перейти на страницу, на которой закончили чтение.

Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

90

См. Quayle Dan. Standing Firm. New York: HarperCollins, 1994; Fass Mark. How Do You Spell Regret? One Man’s Take on It // New York Times (29 августа 2004 г.), доступно в сети Интернет: http://goo.gl/gWW4wK.

91

Пэйлин весьма ловко использовала 1-грам в своем твите от 18 июля 2010 г. Перед этим она воспользовалась этим словом во время телевизионного выступления. См. Read Max. Sarah Palin Invents New Word: «Refudiate» // Gawker (19 июля 2010 г.), доступно в сети Интернет: http://goo.gl/XjV7TJ.

92

См. Macrone Michael. Brush Up Your Shakespeare. New York: HarperCollins, 1990; McQuain Jeffrey, Malless Stanley. Coined by Shakespeare. Springfield, MA: Merriam-Webster, 1998.

93

Несмотря на свою консервативную репутацию среди лингвистов, AHD довольно долго был новаторским с точки зрения применяемых методов. В 1967 году Генри Кучера и У. Нельсон Фрэнсис опубликовали Brown Corpus , сборник текстов, состоявший из миллиона слов и представлявший широкий набор жанров. Эта публикация обеспечила инструментарий для развития корпусной лингвистики как научной дисциплины и тем самым является во многих отношениях самым ранним и самым важным предвестником корпуса, созданного нами в Google . Вскоре после этого издатель Х. Миффлин связался с Кучерой по вопросу создания корпуса для нового словаря, над которым работала его компания. По сути, издатель намеревался реализовать на практике стратегию Элдриджа (см. сноски к разделу «1937: Одиссея данных»), используя лексическую статистику для конструирования словаря английского языка. Первое издание American Heritage Dictionary , вышедшее в свет в 1969 году, стало первым словарем, построенным по такому принципу. Разумеется, нам было крайне интересно посмотреть, насколько хорошо методы создания AHD выглядят с учетом нашего нового мощного корпуса, основанного на текстах Google Books . К счастью, Джозеф П. Пикетт, ответственный редактор AHD с 1997 по 2011 год, с радостью поучаствовал в этом процессе. Благодаря его активному сотрудничеству и помощи со стороны его подчиненных наш анализ American Heritage Dictionary был чрезвычайно успешен. Все цифры относительно AHD в настоящей книге взяты из прямого общения с ними или из представленной ими информации (Пикетт даже стал одним из соавторов Michel2011.) Хотя мы время от времени и критикуем AHD в нашей книге, ясно, что сотрудники AHD отлично понимали: новые методы анализа помогут им улучшить свой словарь. Мы считаем крайне важной прозрачность в лингвистическом процессе, и никакой другой справочный источник несравним с AHD в этом отношении.

94

Команда AHD снабдила нас списком из 153 459 слов, словника четвертого издания их словаря. Иногда одно и то же слово появлялось в списке несколько раз, к примеру, слово console («держатель» и «утешать») появлялось сначала как существительное, а затем – как глагол (мы удалили все удвоенные записи такого рода). Также мы удалили из списка выражения, состоявшие более чем из одного слова (такие как men’s room – «мужской туалет»). В результате список состоял из 116 156 слов.

95

Эти цифры относятся к последнему печатному изданию OED (2-е изд., 1989 год). Многие люди, в том числе директор издательства Oxford University Press Найджел Портвуд, подозревают, что третье издание уже никогда не появится в печатном виде вследствие общей миграции такого рода источников в сеть Интернет. Увы, с OED мы не сотрудничали. На веб-сайте OED указано, что «количество словоформ, имеющих определение и/или проиллюстрированных» равно 615 100. Как отмечено во введении, в этом издании содержалось также 169 000 «фраз и комбинаций, выделенных курсивом или жирным шрифтом», не представляющих собой 1-грамы. По нашему расчету, разница между этими двумя значениями составляет 446 000. Это не точный расчет, а, скорее, верхняя граница – второе издание OED имеет не больше 446 000 слов в виде 1-грам, а, скорее, даже меньше. Не так давно работники OED пригласили нас поучаствовать в симпозиуме, посвященном будущему словарю, поэтому, возможно, нас ждет более динамичное сотрудничество, в стиле AHD . Разумеется, точные цифры будут как нельзя более кстати. См. Oxford English Dictionary, 2nd ed. Oxford: Oxford University Press, 1989; Dictionary Facts // Oxford English Dictionary, доступно в сети Интернет: http://goo.gl/DL6a7; Aarts Bas, McMahon April. The Handbook of English Linguistics. Hoboken, J: John Wiley & Sons, 2008; Jamieson Alastair. Oxford English Dictionary «will not be printed again» // Telegraph (29 августа 2010 г.), доступно в сети Интернет: http://goo.gl/V5g8Ak.

96

Каждый год AHD рассылает вопросник участникам опроса из числа пользователей. Один раз работники AHD позволили нам создать собственное дополнение к вопроснику и разослать его участникам для заполнения. Затем мы сравнили их результаты с выводами, полученными с помощью n -грамов. К примеру, мы спросили их о том, какую из форм глагола ( sneaked и snuck) они считали приемлемой. Оказалось, что более молодые участники значительно чаще считали форму snuck допустимой. Результаты n -грамов демонстрировали быстрое распространение этой формы в последние десятилетия. В совокупности эти результаты показывают, что участники опроса, а возможно, и остальные пользователи языка, формируют представления о допустимости той или иной формы в юности. См. American Heritage Dictionary of the English Language, 4th ed. Boston: Houghton Mifflin, 2000; The Usage Panel // American Heritage Dictionary, 2013, доступно в сети Интернет: http://goo.gl/JtT4l; Nelson Francis, Kučera Henry. Brown Corpus Manual. Brown University Department of Linguistics, 1979.

Читать дальше
Тёмная тема
Сбросить

Интервал:

Закладка:

Сделать

Похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Представляем Вашему вниманию похожие книги на «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» списком для выбора. Мы отобрали схожую по названию и смыслу литературу в надежде предоставить читателям больше вариантов отыскать новые, интересные, ещё непрочитанные произведения.


Отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры»

Обсуждение, отзывы о книге «Неизведанная территория. Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры» и просто собственные мнения читателей. Оставьте ваши комментарии, напишите, что Вы думаете о произведении, его смысле или главных героях. Укажите что конкретно понравилось, а что нет, и почему Вы так считаете.

x