Мы решили начать с достаточно узкого аспекта культуры, который довольно просто определить и измерить, – языка. Язык представляет собой своеобразный микрокосм для изучения культуры в целом. Это – основное средство распространения человеческой культуры. Он меняется, и это легко заметит любой человек, читающий пьесы Шекспира. И наконец, язык часто имеет письменную форму и именно в этой форме превращается в массив данных, удобный для научного анализа. В конечном счете письменный язык может считаться одним из самых ранних предшественников больших данных.
Каким же образом следует подходить к вопросу изучения эволюции языка? Если взять биологию, то лучший способ понять пути развития эволюции состоит в изучении окаменелостей. Однако находить ископаемые довольно сложно. Для этого требуется сочетать тщательное планирование и хорошую стратегию. С точки зрения успешного поиска окаменелостей мало кто может сравниться с Натаном Мирвольдом, возможно, величайшим охотником на динозавров в своем поколении (этот человек множества талантов также стал одним из основателей Microsoft Research и написал книгу о современной кухне) [45]. И дело вовсе не в том, что Мирвольду везет больше, чем другим, и что каждый беловатый камень, который он в своих экспедициях берет в руки, оказывается черепом динозавра Tyrannosaurus rex . Мирвольд и его команда используют подробные геологические карты, спутниковые фотографии и свою собственную программу экологического анализа. Все это помогает им понять, где заниматься поисками и где белые камни действительно имеют шансы оказаться окаменелостями. В результате, начиная с 1999 года, им удалось обнаружить десять скелетов тираннозавров – при том что за 90 предшествовавших лет было найдено всего 18 таких скелетов. Выражаясь словами самого Мирвольда, «мы господствуем на рынке T. rex ».
Мы решили господствовать на рынке лингвистических окаменелостей. Подобно тому, как окаменелости эпохи динозавров рассказывают нам о биологической эволюции, лингвистические окаменелости помогают нам понять, как развивается язык. Однако для того, чтобы повысить шансы на успех в поиске таких окаменелостей, нам был необходим некий руководящий принцип, помогающий понять, где именно копать. И оказалось, что нужный нам инструмент был создан 80 лет назад человеком, который, как и мы сами, искренне любил считать.
Джордж Кингсли Ципф работал в Гарварде в 1930-е и 1940-е годы, возглавляя отделение германской литературы. У него имелась комбинация довольно редких навыков – с одной стороны, он был гуманитарием, а с другой – разбирался в количественных измерениях.
Будучи филологом, Ципф проводил кучу времени в размышлениях о словах. Ему казалось вполне очевидным, что не все слова созданы равными. Определенный артикль the используется в английском языке постоянно, но мы редко слышим слово quiescence («неподвижность»). Ципф счел этот дисбаланс довольно странным и захотел понять, в чем дело.
Понять суть проблемы можно вот как. Представьте себе, что английский язык – это страна, в которой каждое слово является гражданином. А еще представьте, что высота каждого слова-гражданина пропорциональна частоте его употребления – the будет гигантом, а quiescence – карликом [46]. Каково было бы жить среди людей со столь странным ростом? Именно такой «детский» вопрос и заинтересовал Ципфа.
Чтобы представить такой мир наглядно, Ципфу пришлось бы провести перепись всех слов и посчитать, сколько раз использовалось каждое из них. В наши дни это легко и просто сделать с помощью компьютера (программы из одной строки) [47]. Именно поэтому для написания концептуальной книги Legendary, Lexical, Loquacious Love не требовались десятилетия. Но в 1937 году таких возможностей не было. Современные компьютеры просто не существовали, а словом computer («компьютер») обозначался человек, занимавшийся арифметическими вычислениями [48].
Для подсчета слов Ципфу пришлось бы пойти проверенным путем – вручную записывать каждый случай появления того или иного слова в тексте. Разумеется, это была бы невероятно скучная работа.
Думается, что он испытал восторг, узнав о работе Майлса Л. Хенли [49]. Хенли, большой поклонник «Улисса » , опубликовал результат кропотливой и героической работы, которой дал довольно скучное название Word Index to James Joyce’s Ulysses («Индекс слов в книге Джеймса Джойса „Улисс“»). Эта книга (представлявшая собой то, что ученые называют «конкорданс») предлагала исследователям «Улисса » и прочим энтузиастам список всех слов книги. Мало какая другая книга вызвала бы у Ципфа больший интерес. Теперь для того, чтобы разобраться со своей первоначальной задачей, ему нужно было взять индекс Хенли и посчитать, какова длина каждой из статей [50]. Работа стала на порядок проще.
Читать дальше
Конец ознакомительного отрывка
Купить книгу