Анатомия бота: как работают и из чего состоят современные голосовые технологии

Опубликовано От Sergey

Технологии, включая машинное обучение, постоянно развиваются. Благодаря этому, ряд рутинных процессов, которые раньше выполняли операторы колл-центров, сейчас способны взять на себя голосовые боты. Уже сейчас потребители порой не могут отличить, общаются ли они с человеком или с роботом. Игорь Калинин, основатель компании TWIN, рассказывает о нюансах создания и принципах работы современных голосовых технологий.

Анатомия бота: как работают и из чего состоят современные голосовые технологии

Игорь Калинин

В проекте Dig(IT)al рассказываем о технологиях, которые помогут вам заработать. Переходите на цифровую сторону бизнеса.

Где и как используются голосовые боты

У голосовых помощников множество вариантов применения. Они помогают автоматизировать процессы в различных сферах, таких как HR, логистика, банки, ритейл и других, выполняя рутинные задачи вроде обзвона кандидатов на вакантные места в компании или помощи абонентам оператора связи в выборе конкретного тарифа. В целом бот может собирать и обрабатывать обратную связь от пользователей, рассказывать о статусе заказа, напоминать о платежах, запрашивать и актуализировать данные, предлагать товары и даже заключать сделки. 

Один из самых простых кейсов — это получение несложных ответов от абонента и предоставление ему информации. Например, робот звонит клиенту и задает вопрос: «Иван Иванович, вы оставляли заявку на подключение интернета, это еще актуально?». Если он отвечает, что актуально, робот спрашивает, когда потенциальному абоненту удобно ожидать мастера. Ответ фиксируется в базе данных и становится доступен инженеру. При желании клиенту отправляется сообщение с детальной информацией о подключении — тарифе, технических характеристиках и так далее.

Гораздо более сложный кейс — расчет стоимости груза для транспортных компаний. Обычно эту работу выполняет оператор-человек, но сегодня и роботы умеют решать подобные задачи. Например, в транспортную компанию звонит потенциальный клиент и говорит, что ему нужно отправить груз. Бот задает целую серию вопросов для того, чтобы выяснить тип груза, его габариты, направление перевозки, срок и другие важные моменты. Бот показал отличные результаты: после обучения он стал обрабатывать каждый десятый звонок, затем каждый пятый, и сейчас он работает почти со всеми входящими звонками клиентов.

Боты способны не только понимать, что говорит человек, но и распознавать пол и возраст собеседника по голосу, а также строить диалог таким образом, чтобы он казался вполне естественным абоненту. 

Другое важное направление развития — распознавание эмоций собеседника. Способность робота понять, злится ли клиент в моменте или, наоборот, радуется, позволяет улучшать пользовательский опыт, а также лучше понимать потребности аудитории и, как следствие, предлагать потребителю более релевантные услуги. По некоторым данным, сейчас рынок распознавания эмоций оценивается в $21,6 млрд, но к 2024 году вырастет в два раза. 

Анатомия бота

Анатомию голосового помощника проще всего рассмотреть на примере анатомии человека. Робот состоит из различных сервисов, каждый из которых имеет свою зону ответственности и помогает решать определенные задачи. Так, например, сервис распознавание речи — это уши, сервис принятия решения — мозг, а синтез речи — язык. Подобных сервисов, позволяющих создать максимально человечного голосового бота, довольно много. Ниже мы рассмотрим те, без которых вы точно не сможете поговорить с роботом. 

Сервис распознавания речи

Первое, что бот должен научиться делать — распознавать речь человека. Для этого нейросеть анализирует весь аудиопоток и разделяет его на отдельные элементы. Каждый из них сверяется с эталонными звуками обученной нейросети: сначала — с буквами, затем — со слогами и, наконец, словами. После многократного прохождения цикла распознавания фонемы расшифровываются в полноценный текст. Последний также подвергается анализу и сравнивается с базой слов нейросети. В конце процесса робот получает уже готовый материал.

Чтобы нейросети работали эффективно, их важно обучать на базах готовых записей голоса или текста. Чем больше база и продолжительнее процесс обучения, тем лучше и быстрее проходит расшифровка речи человека. Стоит также отметить, что для каждого языка приходится обучать отдельную нейросеть. Например, если бот научился распознавать русский язык, он не будет понимать английский. 

Сервис принятия решений

Большинство ботов представляют собой комплексную систему взаимодействующих агентов для распознавания намерений человека. Каждый агент состоит из навыков и специализируется на решении одной несложной задачи. 

Сложный бот для транспортной компании, о котором говорилось выше, обладает несколькими навыками, каждый из которых позволяет выполнять поставленную задачу: расчет стоимости груза в аэропорту, оценку времени доставки посылки и другое. Агента обучают работе, используя референсный материал — диалоги реальных операторов в компании, которые превращаются в набор данных для нейросети. Чем больше база данных для обучения, тем выше качество коммуникаций робота с человеком.

После этого агент уже умеет правильно понимать намерения собеседника, поскольку он проанализировал многие сотни или даже тысячи диалогов, вопросов и ответов. Обучение дает возможность, например, оценивать согласие человека. Это может быть выражение согласия при помощи таких фраз, как «да, все верно», «правильно, вы поняли», «точно, это так», «ага, именно об этом я говорил», и действовать согласно заложенному плану действий — алгоритму. Если в процессе теста выяснится, что нужно обучить бота еще чему-то, проводится дополнительная работа.

Сервис синтеза речи

Голосовой помощник должен уметь не только слушать и понимать намерения собеседника, но и отвечать ему. Поэтому следующий важный этап — написание готовых сценариев и озвучка вопросов и ответов, которые робот будет использовать в разговоре с клиентом. И тут могут быть разные варианты: использование готовых фраз и предложений, записанных заранее реальным человеком (диктором), либо синтез речи с нуля, когда робот озвучивает текст. В первом случае все вроде бы понятно, поэтому остановимся подробнее на втором.

Процесс синтеза речи состоит из нескольких этапов. Первый — это подготовка текста, которая выполняется специальным алгоритмом. В рамках этого этапа числа записываются словами, а сокращения — разворачиваются, например «руб.» превращается в «рубли». Затем текст делится на фразы, расставляются ударения, строится транскрипция. В рамках второго этапа компьютер рассчитывает продолжительность звучания каждой фонемы, минимальной единицы звукового строя языка. Для их чтения используется акустическая модель, которая по составным частям фонемы, фреймам, составляет описания звуков.

Чтобы сделать голос узнаваемым, необходимо смоделировать тембр. Для этого достаточно просто начитать в студии несколько разных текстов. Тембр не зависит от языка — один раз смоделированный, например, для русского тембр можно использовать для английского, испанского, японского и любого другого. Для воспроизведения речи робот использует генератор звуковых волн — вокодер.

Часто требуется создание отдельных словарей для того, чтобы помочь роботу распознавать специфические термины или названия разных продуктов. В словарь в этом случае должны быть включены все варианты произнесения таких слов.  Соответственно, для бота, внедренного в работу в транспортной компании, словарь будет один, а для робота, встроенного в процессы банка, — другой, и так далее.

Все это дает возможность создавать не линейный диалог, а тот, который позволяет проигрывать несколько сценариев, и самое главное — подобен человеку. Речь идет не о предзаписанных ответах, а о живом разговоре бота и человека. К слову, у ботов TWIN синтез речи составляет 93-95%  и всего лишь 5-7% предзаписей.

В целом разработка голосового помощника занимает от недели до месяца — все зависит от сложности системы. Некоторые компании, представляющие услуги по разработке и внедрению ботов, уже имеют базу голосовых помощников, закрывающие разные задачи клиентов. У нас в TWIN, например, существует внутренний маркетплейс, в рамках которого разработчики создают ботов и далее выкладывают на онлайн-площадку. 

Преимущества роботов

Современные голосовые ассистенты используются для автоматизации звонков в самых разных компаниях. Это дает бизнесу ряд преимуществ:

  • сокращение расходов на содержание штата операторов первой линии, отвечающих на самые простые вопросы. Операторы включаются в диалог только для решения более сложных проблем;
  • роботу можно придать любую тональность и высоту голоса, сделать его мужским или женским, чтобы клиент чувствовал себя максимально комфортно в общении;
  • голосовой бот помогает быстрее решить проблему. Один робот может одновременно разговаривать с сотнями абонентов, так что пользователи не тратят время на ожидание ответа. Соответственно, лояльность клиентов к бренду увеличивается и качество услуг растет.

Стоит отметить, что голосовые роботы не заменят операторов колл-центров — они не конкурируют с людьми. Наоборот, они освобождают операторов от рутинной, даже машиннооднообразной работы, предоставляя им возможность подключаться к решению более нестандартных проблем.

Перспективы голосовых ботов

Уже сейчас некоторых ботов сложно отличить от человека — в речи они делают паузы, характерные для живой речи, вздыхают и меняют тон, как это делает человек. Пример можно прослушать здесь. Системы усложняются, а разработка становится более эффективной благодаря специализированным языкам программирования, предназначенным исключительно для создания ботов.

В ближайшем будущем голосовые боты станут значительно более совершенными, их будет еще сложнее отличить от человека, а это значит — коммуникация станет гораздо более комфортной для пользователя. Например, робот, отреагировав на шутку со стороны пользователя, сможет без проблем вернуться к теме. Через 10 лет совершенно точно будет создан бот, которого человек не сможет запутать вопросами, и разница между общением с оператором-человеком и роботом исчезнет окончательно.

Фото на обложке: Antonio Guillem/shutterstock.com

Нашли опечатку? Выделите текст и нажмите Ctrl + Enter

Источник: https://rb.ru/

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *