Новости Новости 01.09.2021 в 14:32 comment views icon

NVIDIA рассказала о своих успехах в синтезировании естественной человеческой речи силами ИИ

author avatar
https://itc.ua/wp-content/uploads/2022/04/ad81c83e9fbf757ce8a90d0eb41dee5b-96x96.jpeg *** https://itc.ua/wp-content/uploads/2022/04/ad81c83e9fbf757ce8a90d0eb41dee5b-96x96.jpeg *** https://itc.ua/wp-content/uploads/2022/04/ad81c83e9fbf757ce8a90d0eb41dee5b-96x96.jpeg

Вадим Карпусь

Автор новостей

Искусственный интеллект сейчас позволяет воссоздавать голос виртуальных помощников в смартфонах и умных колонках, очень похожий на человеческую речь. Хотя всё ещё можно заметить различия между речью синтезированной и живой, которую мы слышим в повседневной беседе и в средствах массовой информации. Это связано с тем, что люди говорят со сложным ритмом, интонацией и тембром, которые ИИ сложно воспроизвести.

Однако благодаря работе NVIDIA различия постепенно стираются. Исследователи компании создают модели и инструменты для высококачественного управляемого синтеза речи, которые передают богатство человеческой речи без звуковых артефактов. Их последние проекты теперь демонстрируются на сессиях конференции Interspeech 2021, которая продлится до 3 сентября.

Эти модели могут помочь в создании голосовых автоматических линий обслуживания клиентов для банков и предприятий розничной торговли, оживить персонажей видеоигр или книг и обеспечить синтез речи для цифровых аватаров в реальном времени.

Креативная команда NVIDIA даже использует эту технологию для создания выразительного повествования для серии видеороликов о возможностях искусственного интеллекта. До недавнего времени эти ролики озвучивал человек. Предыдущие модели синтеза речи предлагали ограниченный контроль над темпом и высотой звука синтезированного голоса, поэтому попытки повествования искусственного интеллекта не вызывали у зрителей эмоционального отклика, который мог бы дать талантливый оратор-человек.

Ситуация изменилась за последний год, когда исследовательская группа NVIDIA по преобразованию текста в речь разработала более мощные и управляемые модели синтеза речи, такие как RAD-TTS. Обучая модель преобразования текста в речь на базе речи человека, модель RAD-TTS может преобразовать любую текстовую заметку в голос говорящего.

Онлайн-курс "Продуктова аналітика" від Laba.
Станьте універсальним аналітиком, опанувавши 20+ інструментів для роботи з будь-яким продуктом.
Дізнатись більше про курс

Ещё одна особенность модели – это преобразование голоса, когда слова одного говорящего (или даже пение) передаются голосом другого говорящего. Интерфейс RAD-TTS даёт пользователям возможность точного управления высотой, длительностью и энергией синтезированного голоса на уровне кадра. В результате, например, мужчина может зачитать текст и затем преобразовать его в женский голос.

Возможности модели ИИ выходят за рамки озвучивания. Преобразование текста в речь можно использовать в играх, для помощи людям с нарушениями голоса или помощи пользователям при переводе между языками своим собственным голосом. ИИ даже может воссоздать выступления известных певцов, сочетая не только мелодию песни, но и эмоциональное выражение вокала.

Выразительный синтез речи – это лишь один из элементов исследований NVIDIA в области разговорного ИИ. Эта область также включает обработку естественного языка, автоматическое распознавание речи, обнаружение ключевых слов, улучшение звука и многое другое.

Эти разработки были сделаны с помощью инструментария NVIDIA NeMo и являются решениями с открытым исходным кодом. Они оптимизированы для эффективной работы на GPU NVIDIA и доступны для использования исследователям и разработчикам.

Источник: NVIDIA


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: