NVIDIA рассказала о своих успехах в синтезировании естественной человеческой речи силами ИИ

Искусственный интеллект сейчас позволяет воссоздавать голос виртуальных помощников в смартфонах и умных колонках, очень похожий на человеческую речь. Хотя всё ещё можно заметить различия между речью синтезированной и живой, которую мы слышим в повседневной беседе и в средствах массовой информации. Это связано с тем, что люди говорят со сложным ритмом, интонацией и тембром, которые ИИ сложно воспроизвести.

Однако благодаря работе NVIDIA различия постепенно стираются. Исследователи компании создают модели и инструменты для высококачественного управляемого синтеза речи, которые передают богатство человеческой речи без звуковых артефактов. Их последние проекты теперь демонстрируются на сессиях конференции Interspeech 2021, которая продлится до 3 сентября.

Эти модели могут помочь в создании голосовых автоматических линий обслуживания клиентов для банков и предприятий розничной торговли, оживить персонажей видеоигр или книг и обеспечить синтез речи для цифровых аватаров в реальном времени.

Креативная команда NVIDIA даже использует эту технологию для создания выразительного повествования для серии видеороликов о возможностях искусственного интеллекта. До недавнего времени эти ролики озвучивал человек. Предыдущие модели синтеза речи предлагали ограниченный контроль над темпом и высотой звука синтезированного голоса, поэтому попытки повествования искусственного интеллекта не вызывали у зрителей эмоционального отклика, который мог бы дать талантливый оратор-человек.

Ситуация изменилась за последний год, когда исследовательская группа NVIDIA по преобразованию текста в речь разработала более мощные и управляемые модели синтеза речи, такие как RAD-TTS. Обучая модель преобразования текста в речь на базе речи человека, модель RAD-TTS может преобразовать любую текстовую заметку в голос говорящего.

Ещё одна особенность модели – это преобразование голоса, когда слова одного говорящего (или даже пение) передаются голосом другого говорящего. Интерфейс RAD-TTS даёт пользователям возможность точного управления высотой, длительностью и энергией синтезированного голоса на уровне кадра. В результате, например, мужчина может зачитать текст и затем преобразовать его в женский голос.

Возможности модели ИИ выходят за рамки озвучивания. Преобразование текста в речь можно использовать в играх, для помощи людям с нарушениями голоса или помощи пользователям при переводе между языками своим собственным голосом. ИИ даже может воссоздать выступления известных певцов, сочетая не только мелодию песни, но и эмоциональное выражение вокала.

Выразительный синтез речи – это лишь один из элементов исследований NVIDIA в области разговорного ИИ. Эта область также включает обработку естественного языка, автоматическое распознавание речи, обнаружение ключевых слов, улучшение звука и многое другое.

Эти разработки были сделаны с помощью инструментария NVIDIA NeMo и являются решениями с открытым исходным кодом. Они оптимизированы для эффективной работы на GPU NVIDIA и доступны для использования исследователям и разработчикам.

Источник: NVIDIA

NVIDIA рассказала о своих успехах в синтезировании естественной человеческой речи силами ИИ

Ваш комментарий (необязательно):