Современные корпуса: от коллекции текстов к многоуровневой аннотации
С изобретением и широким распространением «электронно-счетных машин», «электронно-вычислительных машин» и «компьютеров» (что одно и то же) доцифровые корпуса никуда не ушли. В некоторых областях лингвистики работа с бумажными картотеками, с текстами на бересте или на глиняных дощечках была и остается существенной частью исследовательской работы. Вообще, для разных языков и разных текстов наблюдается большой разброс в типах и количестве корпусов. Локомотивом корпусной лингвистики является, безусловно, английский язык: никому уже не придет в голову просто собирать английские тексты, когда существуют очень большие и хорошо аннотированные корпуса для всех вариантов этого языка.
В эру «до аннотирования» электронные корпуса представляли собой просто аккуратно собранную коллекцию текстов. Такими, например, были первые корпуса английского языка (Brown corpus, 1960-е годы) и русского языка (Упсальский корпус русских текстов, 1980-е годы).
В общем, первые электронные корпуса отличались от своих старших собратьев лишь форматом хранения, однако постепенно объем информации, заключенной в корпусе, существенно увеличился. В зависимости от количества и качества ресурсов для того или иного языка современным корпусом в одном случае назовут представительный, глубоко аннотированный ресурс, а в другом – простую электронную коллекцию текстов. Корпусная лингвистика – живое дело, и к моменту публикации этого учебника наверняка появится еще парочка новых ресурсов. О деталях мы поговорим в следующих главах, а здесь важно сказать, что каждый новый этап в развитии машинной обработки языкового материала открывал новые возможности сначала для создателей корпусов, а затем и для исследователей. По сути, это не покрытая пылью история, а современное состояние корпусной лингвистики: для части языков уже давно созданы морфологически и синтаксически размеченные корпуса, для других создаются первые, еще не аннотированные корпуса.
Очень трудно создавать корпус древних текстов. Начнем с того, что сканировать древние рукописи очень сложно и даже опасно (для самих рукописей). Лингвистические сложности начинаются уже на первом этапе обработки: слово может писаться разными способами. Например: фельдмаршалъ – фелд-маршалъ – фелтъ маршалъ и т. д. Какой вариант считать правильным? И – главное – как искать лексему независимо от всех орфографических вариантов?
В любом случае современная лингвистическая работа часто невозможна без перевода текстов в электронную форму, что автоматически превращает их в, так сказать, «корпус первого порядка». И это прекрасно, что старые корпуса не умирают, а продолжают жить, наполняясь аннотациями, расширяясь и углубляясь. Как поется в одной старой песенке, «работа есть работа, работа есть всегда».
Задания
1. Прочитайте в Википедии статью про Панини на русском и на любом иностранном языке. Какая из статей оказалась более информативной?
2. Существуют ли конкордансы священных книг основных религий мира? С помощью Яндекса или Гугла попробуйте найти конкордансы Корана, Торы (Пятикнижия Моисея), Трипитака.
3*. По вашему мнению, кого из русских лингвистов «доцифровой» эпохи (условно говоря, до 1970-х годов) можно назвать «корпусным» лингвистом в докорпусную эру? Почему?
Глава 3. Самые известные корпуса
Два крупнейших специализированных каталога CLARIN ( www.clarin.eu/) и ELRA ( http://www.elra.info/) содержат информацию о более чем трех тысячах корпусов. Каждый год появляются новые корпуса, новые форматы и новые типы данных. Значительное число корпусов создается и уже создано для многих языков. Они активно используются как для лингвистических исследований, так и в прикладных целях. Вы можете сами посмотреть, сколько ресурсов создано для английского языка, сколько для русского или для любого другого. Ниже я подробно опишу самые известные и крупные корпуса (список основных корпусов для множества языков можно найти по адресу: www.aclweb.org/aclwiki).
Иноязычные корпуса
1. Британский национальный корпус(British National Corpus, BNC)
http://www.natcorp.ox.ac.uk/; corpus.byu.edu/bnc
100-миллионый корпус разговорных и письменных текстов британского варианта английского языка, охватывающий период конца XX – начала XXI века. Содержит морфологическую разметку.
2. Американский национальный корпус (American National Corpus, ANC)
Читать дальше