Трудно сказать, кто из студентов написал эту заметку в 1999 году, но именно она войдет в историю корпусной лингвистики как первый случай письменной фиксации русского термина.
Конечно, корпусная лингвистика возникла не на пустом месте. Ей предшествовал многовековой период создания корпусов и применения, в сущности, корпусных методов. Однако ключевым отличием от современной корпусной лингвистики были неэлектронная форма хранения материала и, соответственно, неавтоматические способы извлечения данных. Этот период в истории корпусной лингвистики часто называют доцифровым(англ. pre-electronic ).
Знаменитая древнеиндийская грамматика, созданная великим Пáнини, была «антицифровой» по форме и корпусной по сути. Созданная приблизительно в V или IV веке до нашей эры, она передавалась буквально из уст в уста – в виде стихов. С другой стороны, она была основана на внушительном корпусе ведических текстов, представлявших уже мертвый на тот момент язык санскрит.
Многие другие доцифровые корпуса тоже были связаны со священными книгами разных религий. Среди них корпус библейских текстов стал самым популярным и наиболее исследованным. Основанные на Библии списки слов с указанием стихов получили название симфоний, или конкордáнций. Первый конкорданс появился в начале XIII века и назывался «Concordantiae morales sacrae scripturae» («Нравственная конкорданция Священного Писания»).
Следующий этап в развитии доцифровых корпусов наступил в XVIII–XIX веках и был связан с созданием словарей и развитием лексикографии. Многие известные до сих пор словари были созданы авторами на основе многотысячных картотек, по сути – иллюстративных корпусов. Многие из этих корпусов до сих пор хранятся за крепкими дверями с надписью «Картотека» или «Словарный отдел». Однако результатами работы с такими картотекам стали, например, словарь американского английского Ноа Вебстера (Webster’s dictionary) или Словарь живого великорусского языка В. И. Даля.
В. И. Даль собирал материалы для словаря буквально до конца своей жизни: за несколько дней до смерти он добавил новые слова, услышанные от прислуги. Но несколько слов Владимир Иванович придумал сам (например, живуля ), а ряд слов самого что ни на есть живого великорусского языка (например, русский мат), наоборот, исключил.
В конце XIX – начале XX века появляются корпуса, созданные для лингвистических исследований или – чаще – для решения практических задач. Одна из них – подсчет частотности языковых единиц. Первым словарем такого рода стал Частотный словарь немецкого языка (Häufigkeitswörterbuch der deutschen Sprache). Словарь был подготовлен для улучшения стенографической системы немецкого языка на основе корпуса в одиннадцать миллионов слов и издан под редакцией Фридриха Вильгельма Кэниннга в Берлине в 1897 году. С тех пор было создано множество частотных словарей и списков для разных языков, в том числе и для русского.
В 1915 году в Известиях Отделения русского языка и литературы вышла работа, поставившая актуальный в те времена вопрос о «средстве для отличия плагиатов от истинных произведений». Н. А. Морозов составил «лингвистические спектры», или частотные графики, употребления служебных слов разными авторами. Это корпусное по методам исследование было выполнено на материале объемом в пять тысяч слов (большой по тем временам корпус!).
Примерно в то же время лингвисты нового поколения провозгласили отход от описания того, как нужно говорить: важно то, как носители языка говорят на самом деле. Этот принцип, сформулированный на рубеже XIX–XX веков, корпусная лингвистика услышала и сохранила как один из существенных для собственной методологии: корпусная лингвистика описывает прежде всего узус, а не норму.
Датский ученый Отто Есперсен одним из первых объявил о переходе от прескрептивных (то есть нормативных) грамматик к дескриптивным (то есть описательным). Он отказался от искусственно сконструированных, «чистых» примеров в пользу реального языкового материала. Для своего главного труда «Modern English Grammar on Historical Principles» (1909–1949) он специально подбирал источники примеров. Список этих источников занимает 40 страниц и является прообразом современного репрезентативного и представительного корпуса.
Еще одним развитием этой же идеи ориентации на узус стал Словарь языка А. С. Пушкина, который, с одной стороны, входил в многовековую традицию составления словарей языка писателя, а с другой – ставил своей целью сплошное описание всего множества текстов (по сути, основу словаря составил доцифровой корпус всех текстов А. С. Пушкина).
Читать дальше