Вызывает беспокойство, что в скором будущем, без сомнения, нас ждут подделки голоса, совершенные злоумышленниками. Мы уже завалены электронными письмами, нацеленными на выуживание информации. Якобы друг пишет, что его ограбили за границей, и срочно просит перевести ему деньги. А теперь представьте, что вам приходит голосовое сообщение, в котором убедительно сымитирован голос вашего друга. Боюсь, что многие, скорее всего, станут жертвами подобной аферы.
Можно использовать технологию и для скрытого редактирования записи речи. Adobe представила инструмент под названием VoCo, который описывают как фотошоп для голоса. Мы уже привыкли, что фотографии можно изменять и подделывать. В будущем нам придется столкнуться с подобным подходом и с записями речи. К сожалению, это даст новые возможности для беспринципных людей, распространяющих дезинформацию.
И хотя возможности искусственных голосов впечатляют, нам все еще далеко до создания робота, сравнимого с Рори Бремнером. Могут ли ученые, занимающиеся синтезом речи, чему-то научиться у профессиональных пародистов? Одно из новейших исследований, изучающих создаваемые голосом впечатления, было проведено командой, в которую входила Софи Скотт, профессор в области когнитивной нейробиологии Университетского колледжа Лондона. Скотт и ее коллеги с помощью фМРТ-сканера измеряли активность мозга у 23 человек в тот момент, когда они исполняли разговорные пародии. Их просили прочитать детские стишки, например «Идут на горку Джек и Джилл», разными голосами. Иногда они говорили обычным голосом, иногда пародировали других людей, например знаменитостей, таких как Шон Коннери, или просто своих друзей {316} 316 В этом исследовании также участвовали люди, говорящие с региональными и иностранными акцентами. См.: McGettigan C., Eisner F., Agnew Z. K. et al . T’ain’t what you say, it’s the way that you say it — left insula and inferior frontal cortex work in interaction with superior temporal regions to control the performance of vocal impersonations // Journal of Cognitive Neuroscience. 2013. Vol. 25 (11). P. 1875–1886.
. Участвовавшие в исследовании люди не были профессиональными пародистами. Сканирование показало, что, когда их просили кого-то спародировать, участки мозга, связанные с производством и восприятием речи, а также с распознаванием голоса, проявляли повышенную активность. Например, если они пародировали Шона Коннери, то могли сказать «Щекретная шлужба ее величештва», подчеркнуто имитируя необычное произношение звука [с] агентом 007.
У профессиональных пародистов подход совершенно иной. «Я начала заниматься этим вопросом, считая, что профессионалы добиваются нужного звучания, анализируя голос примерно так, как это делают фонетисты», — объясняет Скотт. Но на самом деле они делают нечто совсем иное: «По-видимому, они идут в другом направлении и учитывают буквально все: как человек двигается, что делают его ноздри, брови — похоже, что в изменении голоса задействовано все тело».
Я убедился в этом, когда увидел, как актеры на радио используют определенные гримасы и жесты, чтобы передать особенности голоса, хотя жесты и поведение напрямую никак не влияют на голосовую анатомию. Предварительные результаты этих нейробиологических исследований показывают, что, помимо использования слуховых отделов мозга, профессионалы во время исполнения пародий задействуют визуальные и сенсорные его части {317} 317 The neuroscience of a good impression // The Naked Scientists. 2016. www.thenakedscientists.com/articles/interviews/neuroscience-good-impression .
. Если это помогает им проникнуть в суть характера, то роботу-актеру, пытающемуся научиться пародировать, потребуется изощренный искусственный интеллект, учитывающий совместную работу зрения, движения и голоса. Однако, несмотря на восторги по поводу достижений искусственного интеллекта, такие успешные эксперименты касаются только очень узких областей, например победы в шахматах. Пока нет даже намека на то, что искусственный интеллект способен объединить знания из разных областей, как это запросто делают люди.
Несомненно, за последние десятилетия искусственные голоса усовершенствовались и стали более естественными. Исследователи применили свои знания реальной речи для развития новых и элегантных математических репрезентаций звука, что улучшило его качество. Но теперь усилия в этой области могут быть заменены грубой силой компьютера.
Алгоритмы машинного обучения в последнее время провоцируют технологическую золотую лихорадку в сфере искусственного интеллекта. Компания DeepMind недавно использовала этот подход для производства синтезированной речи, которая звучит намного лучше, чем все остальные разработки в этой области. По сравнению с другими системами созданный учеными компании голос не такой механический, а интонация более плавная. Он даже воспроизводит некоторые сопутствующие речи звуки, такие как движение рта и дыхание, которые у искусственных голосов обычно отсутствуют. Новый голос далек от совершенства, но настолько хорош, что уже используется в сервисе Google Assistant.
Читать дальше
Конец ознакомительного отрывка
Купить книгу