По первому символу строки-буфера начинается процесс образования текущей когорты. Для орфографической записи при этом применяются следующие правила: (1) если первая буква не является допустимым однобуквенным словом, не содержащим ударного гласного (союзом, предлогом), то происходит только определение объема когорты, сама же когорта как набор слов не создается (это чисто программистский ход, экономящий время); если первая буква является допустимым однобуквенным словом, то из соответствующей словарной статьи в промежуточный буфер записывается слово-кандидат, а из остальных словарных статей выбираются данные об их объеме для сбора статистики; (2) заполнение когорты производится по двум первым буквам буфера-строки (или только по первой, когда это ударный гласный, поскольку по чисто техническим причинам ударные гласные представлены в текстах и в словарных статьях двухсимвольными сочетаниями: собственно гласный и знак ударения «+»; равным образом согласные тоже могут иметь двухсимвольные соответствия с учетом «ъ» или «ь»); (3) буфер слов-кандидатов заполняется до тех пор, пока N первых символов в исходном буфере совпадают хотя бы с одним словом в когорте и прекращается, когда добавление еще одного элемента создает комбинацию, не представленную в словаре; вслед за этим начинается анализ слов-кандидатов.
Правила работы с транскрипционной записью полностью аналогичны приведенным выше.
В данный момент при выборе окончательного варианта из всех слов-кандидатов принято самое простое правило: окончательным считается слово, последним занесенное в список, – при условии, что сохраняется возможность идентификации через словарь «оставшейся» цепочки. Это вполне соответствует правилу отбора, сформулированному в теории когорты: выбирается только слово, полностью и без остатка совпадающее с входной последовательностью символов.
На материале как беспробельной орфографической, так и транскрипционной записи рассмотренных текстов точность работы компьютерной сегментации через идентификацию составила более 98%. Столь высокую результативность описанных правил мы можем рассматривать как косвенное (в силу специфичности исходного материала), но убедительное подтверждение «работоспособности» алгоритма, основывающегося на основных положениях модели когорты.
Одна из задач нашей работы заключается в проверке выдвинутой гипотезы о существовании особого перцептивного словаря. В качестве одного из средств верификации гипотезы был использован свободный ассоциативный эксперимент, где в роли стимулов используются как словарные, так и несловарные формы слов.
Предварительный ассоциативный эксперимент в его устно-письменном варианте был ранее проведен студенткой А. Морозовой (рук. Е.В. Глазанова) на материале, включающем все финитные формы глаголов. В протоколах зафиксировано в среднем более 15% реакций, явно, непосредственно обусловленных грамматической формой глагола-стимула. В большинстве случаев это относится к парадигматическим реакциям, например, берешь – отдаешь.
Частичную обусловленность реакций формой глагола-стимула можно видеть в парах более сложных типов, например, берешь – отдавай или даже брал – не отдаст, и, наконец, в синтагматических реакциях с согласованием глагола-стимула и имени-реакции, ср. пары брал – папа, брало – оно, берешь – ты и т.д. С учетом всех вариантов, где представлена частичная обусловленность грамматики реакции грамматикой стимула, можно утверждать, что такая связь характеризует до 99% пар «стимул – реакция» в описываемом эксперименте. Возможно, особенности методики устно-письменного эксперимента (переключение модальности, наличие нескольких реакций на один стимул) лишь отчасти позволяют использовать ее в решении поставленной задачи. В настоящее время проводится серия устно-устных ассоциативных экспериментов, в которых список стимулов включает различные формы существительных и глаголов. Данный эксперимент проводится с участием как взрослых испытуемых, так и детей 6 лет, языковые механизмы которых находятся в стадии развития. Имеющиеся на настоящий момент предварительные результаты не противоречат высказанной гипотезе. Основываясь на этих предварительных результатах, естественно предположить, что испытуемые непосредственно переходят от словоформы как стимула к словоформе как реакции. Поскольку выбору реакции с необходимостью предшествует основанная на обращении к словарю идентификация стимула, приходится признать, что вход в словарь в данном случае – это обнаружение соответствующей словоформы. В противном случае мы должны были бы полагать, что сначала осуществляется процесс лемматизации, а затем – возвращение к уже «использованной» словоформе для установления информации о ее характеристиках, которые служат основанием для выбора словоформы-реакции.
Читать дальше
Конец ознакомительного отрывка
Купить книгу