Но проблема, как обычно, скрывается в деталях. В данном случае в способности чат-ботов улавливать эти самые важные детали в разговоре с человеком. На конференциях и в статьях любят приводить статистику о том, какой процент пользователей успешно сделал заказ через подобные системы. Но согласитесь, для вас при заказе, например, авиабилета имеет критическое значение, чтобы были учтены все требуемые параметры путешествия, такие как время вылета и прилёта, аэропорты, условия тарифа и т.п. Если система может пропустить что-то из этого, то цена ошибки для вас будет очень высокой и вам будет все равно, что остальные 85% пользователей получили именно то, что хотели, и остались довольны.
Как бы то ни было, следующим шагом в развитии стала идея конвертировать голос пользователя в текст, передаваемый в чат, и генерировать голосовое сообщение на основе сгенерированного текстового ответа. Современные технологии уже прошли далеко вперёд, и качество распознавания и генерации голоса находятся на очень высоком уровне. И это только усугубляет проблему наполнения смыслом общения с голосовым чат-ботом. Человек, слыша речь, интуитивно подразумевает, что тот, кто ему отвечает, обладает интеллектом, которого, конечно же, нет, даже «искусственного». В результате у пользователей появляются завышенные ожидания, которые подобные системы не способны оправдать. Проработка сценариев, делающих общение человека с голосовым сервисом полезным и осмысленным, – самая сложная часть в создании подобных систем. И этому ей нужно уделять максимум внимания.
Где же взаимодействие с пользователем голосом может дать преимущества, недоступные для других технологий? Стоит сфокусироваться на двух аспектах. Первое, с учётом того, что никакой интеллектуальностью тут не пахнет, подобная система должна однозначно быть ориентирована на какие-то конкретные прикладные функции, не предполагающие пространных рассуждений и длинных сценариев общения человека и сервиса. Например, сказать системе: «Помоги организовать мне поездку» означает, что вы никогда никуда не поедете, а вот «Закажи мне такси на ближайшее время, поедем на вокзал» уже сработает.
Второе, голос не является предпочтительным способом коммуникаций в большинстве контекстов использования, например, в офисе, в транспорте, на улице среди прохожих. Но есть ситуации, когда руки заняты и нет возможности посмотреть на экран, к примеру, вы за рулём. И здесь появляется небольшое, но важное пространство для подобной возможности. Другой вариант, это когда человек взаимодействует с сервисом через телефонный звонок, т.е. в случае отсутствия в принципе работы через компьютерные устройства. Так может быть организована работа со службой поддержки того же сотового оператора, звонки с опросами и т.п. Но есть и более прикладные варианты, когда в компании есть сотрудники, которым необходимо что-то сообщить коллегам в рамках бизнес-процесса. Хорошим примером может быть прораб на стройке с кнопочным сотовым телефоном, звонящий в бухгалтерию и сообщающий о недостающий материалах в последней партии от поставщика.
Помимо сценариев использования голосовых интерфейсов через «умные» устройства, например колонки и телефонные звонки, есть уже ставшие традиционными мобильные приложения голосовых ассистентов. Вкратце их концепция такова: обращаясь к ассистенту в приложении, вы запускаете определённый сервис, реализованный в виде отдельного сценария голосового взаимодействия. Такие сервисы чем-то похожи на приложения и называются «навыками». Используя «навыки», вы можете, к примеру, заказать такси, поиграть в игру, узнать статус заказа и т.п. Любая компания или разработчик может создать свой «навык», чтобы он был доступен всем пользователям одного из голосовых ассистентов, таких как Алиса от Яндекса или Amazon Alexa. Но у подобного подхода есть один серьёзный изъян – сложность и неочевидность способа использования.
В системах с графическим интерфейсом пользователь сразу видит доступные функции, но в случае с голосовым интерфейсом нет возможности быстро и понятно сообщить, как им пользоваться. Конечно, «навык» может начинать приветственную фразу с короткого пояснения, как его можно использовать, но при реальном использовании это становится серьёзным ограничением. Недавно мой коллега Дмитрий Чечеткин из компании Just AI предложил новую концепцию использования голосовых систем. Вместо того чтобы иметь общую точку входа в виде отдельного приложения голосового ассистента, есть смысл добавлять голосовые функции непосредственно в приложения, которыми мы уже пользуемся. Отпадает необходимость пытаться в виде сложных голосовых сценариев предоставить доступ ко всем функциям сервиса, достаточно найти места в приложении, которые проще пройти голосом, например, при заказе в интернет-магазине продиктовать адрес доставки, вместо того чтобы его заполнять. Ряд сценариев при таком подходе также можно сильно упростить, когда вместо череды экранов, через которые пользователь продвигается, у него появляется возможность голосом ответить на несколько вопросов и сразу оказаться в финальной точке. К тому же существующее мобильное приложение уже знает пользователя и может получить доступ к предыдущей истории взаимодействия, например, содержанию прошлых заказов, тем самым ещё больше упростив взаимодействие.
Читать дальше