• создание, на базе корпуса текстов, словаря для моделирования восприятия речи; единицей словаря выступает словоформа с индексом частотности.
На настоящий момент общий объем нашего корпуса – 1 031 920 словоупотреблений.
На основании подкорпуса объемом 322 тысячи словоупотреблений организован частотный словарь словоформ, включающий 63 742 единицы и словарь фонетических слов объемом 84 174 единицы. Этот подкорпус имеется также в транскрибированном виде. Автоматическое транскрибирование текстов осуществлялось с помощью версии фонологического транскриптора на базе кириллицы (автор программы А.В. Венцов).
В данной статье мы попытались отразить как методологический подход, так и основные направления исследований авторского коллектива в заявленной области.
Компьютерное моделирование сегментации и идентификации графической записи текста
Наличие корпуса и словаря словоформ позволило осуществить компьютерное моделирование сегментации графической беспробельной записи текста через идентификацию, т.е. путем сличения с единицами словаря. Мы исходим из того, что подобная процедура на материале «сплошной» графической записи может рассматриваться как некоторое приближение к работе с материалом звучащего текста, а используемые принципы компьютерного моделирования до некоторой степени соответствуют процессам восприятия речи человеком. Сделанный акцент на процедуре сегментации через идентификацию ни в коей мере не означает отказ от исследования автономного механизма сегментации (независимой от идентификации), но лишь признание относительно небольшого удельного веса автономной сегментации на слова в восприятии речи (подробнее см. об этом <...>).
Существенно отметить, что в большинстве ранних работ, выполненных в русле «модели когорты», материалом, подлежащим распознаванию, выступали изолированные слова – соответственно проблема сегментации вообще не возникала. В отличие от этого, наш алгоритм принципиально нацелен на обработку слитной речи – на данной стадии исследования в ее графическом представлении, а именно орфографической и транскрипционной (в терминах фонем) записей. В основу алгоритма положено упрощенное предположение о том, что в буфер памяти слушающего сведения о символах, составляющих экспонент слова, поступают последовательно во времени и, соответственно, происходит накопление информации, обеспечивающей выбор подходящего слова из словаря.
Сам процесс выбора начинается сразу же, как только в буфере появляются первые один-два символа. По ним из словаря выбираются все подходящие слова – т.е. начинающиеся на тот же символ или последовательность символов слова, которые и образуют «когорту». По мере поступления в буфер следующих символов, из когорты удаляются все слова, не согласующиеся по началу с имеющейся в буфере цепочкой, и процесс этот продолжается до тех пор, пока в когорте не останется одно-единственное слово, которое и будет считаться идентификатором распознаваемого отрезка текста.
Создатели «модели когорты» предполагали, что по мере накопления информации о фонемном составе слова будет резко сокращаться объем когорты и процесс идентификации должен сходиться достаточно быстро и эффективно (особенно если принять во внимание возможность априорного контекстного ограничения словаря, из которого производится начальная выборка когорты, что обычно не учитывается). Сделанные нами самые предварительные расчеты для русского языка показали, что объем выборки действительно стремительно сокращается по мере появления во входном буфере все новых фонем, особенно если при составлении когорты принять во внимание ритмическую структуру распознаваемого слова.
Но все это относилось к идентификации изолированных слов. Мы же попытались использовать ту же идею при «работе» с непрерывной последовательностью слов, не разделенных какими бы то ни было метками сегментации, т.е. возможности того же алгоритма оценивались применительно к распознаванию слитной речи, которая характеризуется как раз отсутствием границ между словами, образующими высказывание (синтагму). Одна из вытекающих при этом сложных проблем заключается в том, что единый процесс идентификации-сегментации предполагает нахождение правой границы слова. В нашей модели анализируемый текст считывается из файла слово за словом и записывается в строку без пробелов и знаков препинания. Начальная часть строки длиной в 7 – 9 открытых слогов представляет собой буфер, с содержимым которого работает в дальнейшем программа. Объем буфера выбран на основании имеющихся данных об объеме оперативной (кратковременной) памяти человека (7+2 слога). На этом этапе алгоритм работы программы, скорее всего, не соответствует предполагаемому алгоритму работы системы распознавания речи человеком и выбран таковым только из условия удобства программной реализации процесса.
Читать дальше
Конец ознакомительного отрывка
Купить книгу