В русских научных и электротехнических текстах XIX века слова типа вольт, рентген, радиан во множественном числе родительного падежа писались так: вольтов, рентгенов и т. п. Однако, как показала Л. К. Граудина, начиная с- конца восьмидесятых годов прошлого века, все чаще стали употребляться написания вольт, рентген, совпадающие с именительным падежом единственного числа. Спустя два-три десятилетия эти формы утвердились не только в профессиональной речи, но и в литературном языке. В итоге появилась новая группа имен существительных, которая в родительном падеже множественного числа имеет нулевое окончание: мы говорим и пишем: тысяча вольт, пять рентген, а не вольтов или рентгенов.
Числовые данные, характеризующие динамику этого процесса, можно свести в таблицу (например, если в 1885 году написание типа вольт встречалось один раз на сотню, то в 1908 году — уже девяносто девять раз).
Данные таблицы были перенесены на график, где по оси абсцисс отмечались годы, а по оси ординат — частоты форм с нулевым окончанием. «Полученная последовательность экспериментальных точек показывает резкое возрастание нулевых форм в период между 1886 и 1905 гг. Возникает вопрос, какой из функций можно воспользоваться для описания полученной зависимости? — пишут Пиотровские. — Линейная зависимость здесь применена быть не может, поскольку значения функции находятся в интервале от — со до + со, в то время как по условиям задачи область изменения нашей функции лежит в интервале между нулем и единицей (относительные частоты не могут быть меньше нуля и больше единицы)». Рост нулевых форм лучше всего моделирует график обратной тригонометрической функции f = arctg t , где f — частота нулевых форм, а t — годы.
Пример этот имеет иллюстративный характер — все числовые данные у нас были. Однако часто лингвисты имеют дело с отрывочными сведениями, неполными материалами по диалекту, эпохе или стилю того или иного языка. Здесь математическая модель помогает восстановить не засвидетельствованные в дошедших до нас памятниках этапы развития языка. Так, А. А. Пиотровская и Р. Г. Пиотровский выводят формулу, по которой можно вычислить динамику формирования и развития в старофранцузском языке определенного артикля (формирование это шло в народно-разговорной речи, которая почти не отражена в дошедших до нас памятниках той эпохи).
Зависимость между объемом текста, который подвергается обработке, и числом разных слов, которые в нем окажутся, очевидна. Нельзя ли отыскать математически строгую формулу, по которой можно было бы, исходя из объема текста, вычислять количество слов? И определять, какой объем даст нам статистически достоверные результаты?
Первым найти такую формулу словаря попытался уже упоминавшийся нами Дж. Ципф. Связь между частотой употребления слова и его рангом, то есть номером в списке, получила наименование «закон Ципфа». Частотные словари представляют собой обычно списки слов, которые расположены по их рангу: первым идет слово, которое встречается чаще всего, затем второе по встречаемости и т. д. Однако выяснилось, что «закон Ципфа» не универсален. Были попытки описать распределение слов в тексте с помощью специальных формул теории вероятностей — так называемого нормального распределения, распределения Пуассона, распределения Маркова— Колмогорова и т. д. (причем, как показала советская исследовательница М. Е. Каширина, распределение Маркова — Колмогорова является наиболее общим и универсальным для распределения любых языковых единиц).
В теории вероятностей известны десятки законов распределения случайной величины. Задача статистической лингвистики — выбрать тот закон, который лучше всего отражает именно реалии языка, а не какие-либо иные закономерности.
Вот характерный пример, заимствованный нами из учебника «Математическая лингвистика», написанного Р. Г. Пиотровским, К. Б. Бектаевым и А. А. Пиотровской. И наше обычное поведение, и функционирование техники, и порождение речи — в той или иной степени вероятностны. Садясь в самолет или автомобиль, мы уверены, что все будет хорошо. Составляя словарь для перевода русских текстов по математике, мы не станем включать в него слово дядя или словосочетание бубновый туз.
И все-таки несчастные случаи, увы, бывают, какова бы ни была их вероятность. В книгах по математике можно найти и бубнового туза и даже дядю (так, в труде «Теория вероятностей» Е. С. Вентцель читатель может обнаружить цитату из начала «Евгения Онегина», знаменитое «Мой дядя самых честных правил…»). Так что же, отменить автомобили и не летать на самолетах? А в математические словари наряду со словом дядя включать еще и тетю, и бабушку, и названия игральных карт и вообще все сотни тысяч русских слов? Разумеется, нет.
Читать дальше