07 марта 2023
В Yandex Cloud мы развиваем технологии индивидуального синтеза речи под брендом SpeechKit Brand Voice и помогаем компаниям любого размера говорить со своими клиентами уникальными голосами. Различные исследования и разработки нашей команды позволяют сервису синтезировать голоса, максимально приближённые к звучанию человеческой речи. Благодаря этому появляется возможность выделиться на фоне конкурентов и повысить лояльность клиентов.
Сейчас мы выводим обновление SpeechKit Brand Voice, которое поможет подобрать подходящий формат работы с сервисом, а также ускорит и упростит получение полнотекстового синтеза. Пользователи платформы могут выбрать среди трёх версий SpeechKit Brand Voice: Premium, Self Service и Call Center. Расскажем про них подробнее.
Brand Voice Premium — это вариант синтеза, который позволит создать максимально качественный голос для сложных задач: голосовых ассистентов, озвучки текстового контента, маркетинговых целей, полнотекстового синтеза речи с различными характеристиками в нескольких амплуа. Наши специалисты помогут подготовить данные, необходимые для обучения модели Brand Voice Premium: подберут студию и диктора и будут сопровождать на всех этапах создания голоса. Также доступна интеграция голоса в навыки Алисы.
Если вы желаете записать диктора самостоятельно, то получить полнотекстовый синтез поможет Brand Voice Self Service. С помощью этой версии можно озвучивать тексты любой длины, создавать роботов для колл-центра, озвучивать новости и многое другое. А разнообразить эмоциональную окраску голоса поможет синтез по аудиошаблону, из которого будут копироваться интонации.
Мы создали абсолютно новую технологию Brand Voice — Call Center. Если раньше для создания нового голоса в синтезе речи нужны были часы записей в студии и недели обучения ML-модели, то теперь с помощью Brand Voice Call Center компании могут создать новые голоса для виртуальных операторов колл-центра за считаные минуты.
Пример оригинальной записи оператора
Пример записи, синтезированной Brand Voice Call Center
Алгоритм позволяет компаниям практически в режиме реального времени синтезировать голос, которым можно озвучивать персонализированные ответы для клиентов. Он обрабатывает один аудиошаблон и на его основе синтезирует сотни таких же фраз, но при этом по скрипту может менять в них отдельные слова. Синтезированная речь в Brand Voice Call Center звучит естественно и передаёт все детали речи живого человека из шаблона: эмоции, интонации, изменения громкости. В качестве шаблонов компании могут использовать фрагменты телефонных записей реальных операторов своих колл-центров.
Робота в колл-центре можно быстрее научить, например, обращаться к клиентам по именам или согласовывать адреса и названия товаров в заказе. Это первый подобный сервис на русском языке, выпущенный для коммерческого использования. Brand Voice Call Center уже доступен для компаний и предоставляется по запросу.
Для обучения Brand Voice Call Center специалисты Yandex Cloud использовали датасет с тысячами часов записей различных дикторов на русском языке. Подобный опыт позволяет работать практически с любым голосом без предварительной подготовки. Чтобы речь звучала более естественно, для обучения моделей в сервисе использовали трансформерную архитектуру. В отличие от других нейронных сетей, трансформеры позволяют обучать ML-модели параллельно на современных видеокартах (GPU) и концентрироваться на важных частях текста, что повышает качество синтеза.
Компания МТТ, которая использует Brand Voice Call Center для общения с клиентами, увеличила конверсию продаж на 20% в голосовых каналах. А по данным другой компании-партнера — АТС, которая внедрила технологию в проект по медицине, персонализированная речь помогает в разы повысить лояльность клиентов к виртуальным операторам.
Недавние публикации:
Консультанты, отзовитесь!,
Новость, 28 марта 2024
Как ДЭК и ATC создали голосового помощника для 3,5 миллионов абонентов,
Новость, 06 февраля 2024
Как за месяц робот заговорил 150 голосами? Опыт Voxys&TWIN,
Новость, 05 февраля 2024