Новости Технологии 10.01.2023 в 16:55 comment views icon

Vall-E — новая ИИ-технология Microsoft, которая очень точно имитирует голос человека на основе 3-секундного семпла

author avatar
https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg *** https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg *** https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg

Катерина Даньшина

Автор новостей

Раздел Технологии выходит при поддержке Favbet Tech

Исследователи Microsoft создали новую модель искусственного интеллекта Vall-E, способную воспроизвести голос, идентичный человеческому. Отмечается, что Vall-E учится на «дискретных кодах, полученных из стандартной модели нейронного аудиокодека», а также на записях 60 тысяч часов разговоров (это в 100 раз больше, чем в существующих системах) более чем 7 тысяч спикеров. Большинство диалогов взяты из общедоступных сайтов с аудиокнигами LibriVox.

Vall-E базируется на технологии EnCodec, которую Meta анонсировала в октябре 2022 года. Она анализирует голос человека, разбивает информацию на компоненты и синтезирует вариации его звучания в разных фразах. Даже прослушав лишь трехсекундный семпл, Vall-E может воспроизвести тембр и эмоциональный тон говорящего.

«Результаты эксперимента показывают, что Vall-E значительно превосходит современную систему TTS [ИИ, воспроизводящий голоса, которых он никогда не слышал] с точки зрения естественности речи и похожести на говорящего», — говорится в статье исследователей.

Примеры воспроизведения голосов Vall-E можно прослушать на GitHub. Большинство звучат идентично записям, несмотря на то, что использованы только короткие фрагменты. Несколько голосов звучат более роботизировано и напоминают голоса традиционного ПО для преобразования текста в звук.

Исследователи Microsoft считают, что Vall-E в будущем можно использовать как инструмент преобразования текста в голос, способ редактирования речи и систему создания аудио, соединив его с другими генеративными ИИ, такими как GPT-3.

Vall-E — нова ШІ-технологія Microsoft, що надзвичайно точно імітує голос людини на основі 3-секундного семплу

Как и в случае со всеми другими моделями ИИ, есть беспокойство по поводу неправильного использования Vall-E — например для имитации голосов публичных деятелей, политиков или звезд (особенно если использовать это в сочетании с дипфейками). Преступники также смогут получить конфиденциальные данные, если заставят человека поверить, что он говорит с семьей, друзьями или официальными лицами. Некоторые системы безопасности также используют голосовую идентификацию. Что касается его влияния на рабочие места, то Vall-E, вероятно, будет более дешевой альтернативой для актеров дубляжа.

Онлайн-курс "Архітектура високих навантажень" від robot_dreams.
Досвід та інсайти від інженера, який 12 років створює програмне забезпечення для Google.
Програма курсу і реєстрація

Но исследователи Vall-E говорят, что все эти риски можно снизить:

«Можно построить модель, которая будет определять, было ли аудио синтезировано Vall-E».

Microsoft, похоже, решительно взялась за развитие ИИ-технологий и их внедрение в собственные продукты. Языковую модель GPT от OpenAI попытаются интегрировать с Word, Outlook и PowerPoint, а ChatGPT — чат-бот, который генерирует тексты, похожие на человеческие, и дает развернутые ответы на вопросы — с марта добавят в версию поисковой системы Bing.

По сообщениям СМИ, Microsoft также ведет переговоры об инвестировании 10 миллиардов долларов в OpenAI. Соглашение предусматривает, что компания будет получать 75% прибыли ИИ-лаборатории, пока не возместит свои инвестиции. После достижения этой цели Microsoft получит 49% акций стартапа, другие инвесторы получат еще 49%, а некоммерческая материнская организация OpenAI — 2%.

СМИ: Microsoft инвестирует $10 млрд в OpenAI — разработчика чат-бота ChatGPT, генерирующего пугающе человеческие тексты

Онлайн-курс "Архітектура високих навантажень" від robot_dreams.
Досвід та інсайти від інженера, який 12 років створює програмне забезпечення для Google.
Програма курсу і реєстрація

Источник: Techspot

Раздел Технологии выходит при поддержке Favbet Tech

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков. IT-компания входит в группу компаний FAVBET.


Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: