Важно понимать, что возможность поиска в современном корпусе ограничена поиском по буквам и другим знакам и сводится к точному составлению запросов в виде набора символов той или иной степени сложности. Даже когда мы ставим галочки и выбираем параметры из меню, мы по сути указываем, какие уже включенные в корпус символы или их комбинации нас интересуют (о некоторых исключениях я расскажу ниже).
Например, поиск мужских или женских ролей в мультимедийном корпусе МУРКO ( www.ruscorpora.ru/search-murco.html) возможен только потому, что корпус уже содержит заранее введенную информацию о том или ином актере. Поиск реплик актера по его изображению или тембру голоса невозможен и вряд ли необходим.
5. Из требования электронного формата следует возможность развития корпуса как в «ширину» (увеличение объема), так и в «глубину» (дополнительная информация о единицах корпуса). Последнее определяет требование к корпусу, которое сегодня все чаще становится обязательным. Я говорю о наличии специальной разметки, или аннотации. Именно она позволяет искать не только по текстоформам, но и по другим параметрам. Говоря по-простому, разметка представляет собой лингвистический разбор всех языковых единиц на выбранном языковом уровне, или, если говорить более формально:
разметка(аннотация, англ. annotation ) – это введенная автоматически или вручную лингвистическая или метатекстовая информация обо всех выбранных единицах корпуса: тексте, предложении, текстоформе, морфеме, звуке и т. д.
Этой важнейшей составляющей современного корпуса будет посвящено несколько глав учебника.
Дополнительная литература
1. Atkins S., Clear J., Ostler N. Corpus design criteria // Literary and linguistic computing. 1992. Vol. 7. № 1. P. 1–16.
2. Biber D. Representativeness in corpus design // Literary and linguistic computing. 1993. Vol. 8. № 4. P 243–257.
3. Integrum: точные методы и гуманитарные науки. М., 2006.
4. McEnery T., Wilson A. Corpus linguistics. Edinburgh: Edinburgh University Press, 1996.
5. O'Keeffe A., McCarthy M. (ed.). The Routledge handbook of corpus linguistics. Routledge, 2010. (Раздел 2: “Building and designing a corpus: what are the key considerations?”).
6. Материалы конференции «Диалог: Компьютерная лингвистика и интеллектуальные технологии». М.; Дубна, 1995-. Доступно по адресу: http://www.dialog-21.ru/.
7. Инструментарий русистики: корпусные подходы. Хельсинки, 2008.
8. Национальный корпус русского языка. 2003–2005: результаты и перспективы. М., 2003.
9. Национальный корпус русского языка. 2006–2008: новые результаты и перспективы. СПб., 2009.
10. Плунгян В. А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. 2008. № 16 (2). С. 7–20.
11. Труды международной конференции «Корпусная лингвистика». СПб., 2004-. Доступно по адресу: http://www.corpora.phil.spbu.ru/.
12. Шимкова М. Репрезентативность корпуса как лингвистическая проблема // Сборник: Труды Международной конференции MegaLing-2005: Прикладная лингвистика в поиске новых путей. СПб.: Осипов. 2005. С. 130–139. Доступно по адресу: korpus.juls.savba.sk
Задания
1. Посмотрите видеолекцию Владимира Александровича Плунгяна ( ВИДЕО, © ПостНаука; 13:30 мин.) и ответьте на следующие вопросы:
а) Какое определение дает В. А. Плунгян термину «корпус»?
б) Чем лингвист похож на ребенка?
в) Какую часть лингвистической работы сократили языковые корпуса?
г) Что такое Машинный фонд русского языка?
д) Подсчитайте, сколько раз В. А. Плунгян использует формы «корпуснóй / кóрпусный» и «корпусá / кóрпусы».
2. На сайте конференции «Диалог» ( http://www.dialog-21.ru/) найдите программу последней конференции. Сколько раз в названиях докладов встречается слово «корпус» и его производные?
3*. Проведите описанный в главе эксперимент, задав окружающим вопрос «Как дела?». Какого количества опрошенных оказалось достаточно, чтобы ответы стали повторяться?
Глава 2. История корпусной лингвистики
Согласно данным корпусов английского языка, термин corpus linguistics был впервые использован в 1977 году. По меркам развития любой науки это не просто недавно, а прямо-таки вчера. Однако за это время корпусная лингвистика успела стать одним из ведущих направлений современной лингвистики. В России новый термин стал известен, по-видимому, в 1996 году благодаря лекциям одного из создателей знаменитого Международного корпуса английского языка (International Corpus of English, ice-corpora.net/ice) Сидни Гринбаума. Во всяком случае первый раз сочетание «корпусная лингвистика» встретилось в русском корпусе в связи с этим именем:
«В декабре народ ломился на лекции по корпусной лингвистикепрофессора Гринбаума» (журнал «Карьера», № 2, 1999).
Читать дальше