Использование голоса для управления устройствами помогает избежать неудобств сенсорных дисплеев или кнопок. 20 % поисковых запросов в Google через мобильные телефоны осуществляются голосом, потому что быстрее произнести запрос, чем использовать крошечную клавиатуру телефона. Но для некоторых людей новые технологии обработки речи становятся жизненно необходимыми для общения.
Болезнь двигательных нейронов (БДН) поражает нейроны в головном и спинном мозге и постепенно лишает человека возможности контролировать мышцы. К сожалению, у большинства людей с этим заболеванием возникают проблемы с речью, и попытки общения приводят к отчаянию и изоляции. По мере развития этого неврологического заболевания человек постепенно теряет контроль над мышцами, отвечающими за артикуляцию, что нарушает плавность речи. Координация разных частей речевой анатомии затрудняется, и речь сначала становится похожей на речь пьяного. Окружающим становится все труднее понимать такого больного, особенно незнакомым людям, уши которых не приучены к такому голосу. Постепенно это может привести к полной утрате говорения. Карен Пирс, руководитель отделения по уходу за такими больными в Ассоциации БДН, как никто другой знает, насколько важными для самосознания человека являются произношение и манера речи: «Я не могу даже представить что-нибудь более важное, чем возможность сказать своей жене, своему мужу или детям, что ты их любишь» {313} 313 Walker T . How local accents have replaced Stephen Hawking-style voice boxes // Guardian. 2017.
.
Эта проблема привела Саймона Кинга и его коллег из Эдинбургского университета к совместной работе с Ассоциацией БДН над созданием синтезаторов, которые могли бы сохранить хотя бы некоторые особенности голоса человека. До этого больные БДН были вынуждены использовать стандартный аппарат «Искусственный голос», голос на котором мог быть другого пола или имел иное произношение. Но создание персонализированного голоса ставит перед разработчиками целый ряд вопросов. В идеале для создания синтетического голоса нужно иметь большое количество записей речи еще здорового человека. Но у людей редко бывает такое количество аудиозаписей. К тому времени, когда у них диагностируют БДН, голос, как правило, уже изменился, поскольку ухудшение речи часто является одним из первых признаков этой неврологической проблемы.
Решение можно найти в создании смешанного голоса: основные вокальные характеристики будут принадлежать больному, а остальное — здоровым голосам доноров. Но рецепт, использованный в вокодере, предписывает тщательно отбирать, какие ингредиенты брать из голоса больного, а какие дополнять донором. Здесь необходим компромисс, ведь чем большее количество частей взято у здорового голоса, тем более плавной и членораздельной будет искусственная речь. Но это и отдаляет искусственный голос от настоящего голоса больного.
Сначала создается базовый голос, который будет взят за основу речи. Это может быть голос родственника или донора голоса, примерно того же возраста, пола и с таким же акцентом {314} 314 Донорские голоса обычно стараются усреднить, так как это дает лучший конечный результат.
. Затем базовый голос настраивается так, чтобы включать как можно больше аспектов речи больного. Например, некоторые параметры, которые загружаются в вокодер, обозначают длительность разных частей слова. По мере того как контролировать мускулы становится все труднее, поскольку болезнь прогрессирует, артикуляция становится замедленной. Следовательно, при персонализации базового голоса можно проигнорировать настоящую длительность частей слов, но другие ингредиенты, например высоту тона, сохранить.
Такие персонализированные голоса несовершенны, но они демонстрируют прогресс в создании искусственных голосов, которые могут передавать некоторые черты характера. Качества пока немножко не хватает для того, чтобы робот-актер мог сыграть серьезную роль, но уже достаточно для исполнения сатиры. Мэтью Эйлет — научный сотрудник в Эдинбургском университете, а также главный научный сотрудник в CereProc, компании, производящей системы синтеза речи. Как и многим другим ученым, ему нравится играть идеями и технологиями. Он создал искусственный голос Барака Обамы, собранный из огромного количества записей обращений президента {315} 315 Поиграйте с демонстрационными роликами на: http://www.nutbot.net/talking_head/ .
. На одном из звуковых образцов Обама говорит: «Люди Америки должны обладать великолепной технологией синтезирования речи, и CereProc делает лучшие системы в мире. Поверьте мне, я президент Соединенных Штатов Америки». Синтетический голос звучит немного механически, но, если сказать, что Обама говорит по мобильному телефону, слушатели, возможно, припишут проблемы со звуком телефону, а не голосу. Раньше для такой хитрости потребовался бы опытный пародист, но сегодня специалисты по синтезу речи могут сами играть в подобные игры.
Читать дальше
Конец ознакомительного отрывка
Купить книгу