Специалист по данной проблеме доктор технических наук М. Сулуквадзе, работающий в Институте систем управления Академии наук Грузинской ССР, считает, что «автоматическое распознавание речи следует считать одной из наиболее сложных проблем технической кибернетики. Мы не уверены, что она будет полностью решена и через 50 лет, то есть к 2034 году. Под термином „полностью“ подразумевается уровень восприятия и понимания речи человеком в реальных условиях его речевого взаимодействия с другими людьми».
Рис. 9.Раритет
Причина столь упорного «нежелания» ЭВМ научиться в совершенстве понимать речь кроется в индивидуальных и эмоциональных особенностях речи людей, сильно искажающих ту фонетическую структуру стандартного речевого сигнала, на распознавание которого заранее настраивается машина. Так, известно, что речевая информация кодируется формантной структурой (частотой формант и их динамикой). Но частота особенно первых формант существенно зависит от частоты основного тона голоса: повышается при повышении голоса и снижается при понижении основного тона речи. Изменения во времени основного тона голоса – это важнейшее средство эмоциональной выразительности (интонации голоса), и происходят они в связи с эмоциями в пределах до одной, полутора и даже двух октав (!), как это наблюдается при сильном эмоциональном возбуждении. Это и приводит к сильнейшей деформации всей спектральной структуры речи и непониманию речи машиной. По данным Г. Фанта, женские и детские голоса, имеющие повышенную, по сравнению с мужскими, частоту основного тона, характеризуются и повышенными формантными частотами (в среднем на 17–25 %).
Очевидно, в мозгу есть механизм, учитывающий информацию о повышении средних частот формант в связи с повышением основного тона голоса (высота голоса). Потому-то нам практически безразлично, на какой высоте основного тона голоса произносятся слова: произносит ли их мужской, женский или детский голос – разборчивость, понятность речи обеспечиваются.
Но перечисленные трудности – это лишь малая толика всех их, стоящих на пути обучения ЭВМ пониманию речи. Образно говоря, все виды речевой информации – лингвистической и экстралингвистической – как бы «растворены» в звуке голоса человека. Наш слух не испытывает затруднений в их разделении и учете, а машина «затрудняется». Поэтому можно надеяться, что изучение индивидуально-эмоциональных особенностей речи и механизмов, на которые опирается наш слух и мозг при их разделении, позволит наконец окончательно решить и проблему ее автоматического распознавания. Может быть, здесь пригодятся данные о том, что для восприятия и переработки логической и эмоциональной информации речи в мозгу человека имеются два специализированных и вместе с тем взаимодействующих отдела: левое полушарие мозга – для логики, правое – для эмоций. Кстати, в одной из работ под редакцией виднейшего американского специалиста по автоматическому распознаванию речи Уайна Ли описаны алгоритм и устройство распознавания речи, основанные на принципах работы правого полушария мозга (т. е. целостного, а не посегментного анализа, с учетом просодических и экстралингвистических характеристик речевого сигнала).
Взаимодействие человека с компьютером предполагает создание на базе ЭВМ говорящих роботов. Все, конечно, слышали по радио в научно-популярных передачах лишенный каких-либо эмоций голос робота. Безэмоциональность – характерное его свойство, которое и проявляется в голосе. А почему, собственно, робот и его голос должны быть безэмоциональными? Нельзя ли «оживить» его голос интонациями человеческой речи? Ведь эмоциональная окраска голоса делает его эстетически более приятным, психологически совместимым с восприятием человека, а кроме того, она отнюдь не бесполезный акустический аккомпанемент речи, а несет очень нужную информацию, например, о степени важности сообщения, грозящей опасности и т. п.
Вдохнуть эмоции в бездушный мозг робота – одна из задач кибернетической науки, связанная с выделением и формализацией инвариантных акустических признаков, ответственных за эмоциональную окраску звука.
Ясно, что «оживление» речи робота – одна из многих технических задач, решить которую нельзя без знания алфавита акустического языка эмоций. Но, чтобы заложить этот алфавит в электронный мозг робота, необходимо сначала выявить, потом формализовать признаки, ответственные за эмоциональность голоса.
Читать дальше
Конец ознакомительного отрывка
Купить книгу