Vall-E — новая ИИ-технология Microsoft, которая очень точно имитирует голос человека на основе 3-секундного семпла

Опубликовал
Катерина Даньшина

Исследователи Microsoft создали новую модель искусственного интеллекта Vall-E, способную воспроизвести голос, идентичный человеческому. Отмечается, что Vall-E учится на «дискретных кодах, полученных из стандартной модели нейронного аудиокодека», а также на записях 60 тысяч часов разговоров (это в 100 раз больше, чем в существующих системах) более чем 7 тысяч спикеров. Большинство диалогов взяты из общедоступных сайтов с аудиокнигами LibriVox.

Vall-E базируется на технологии EnCodec, которую Meta анонсировала в октябре 2022 года. Она анализирует голос человека, разбивает информацию на компоненты и синтезирует вариации его звучания в разных фразах. Даже прослушав лишь трехсекундный семпл, Vall-E может воспроизвести тембр и эмоциональный тон говорящего.

«Результаты эксперимента показывают, что Vall-E значительно превосходит современную систему TTS [ИИ, воспроизводящий голоса, которых он никогда не слышал] с точки зрения естественности речи и похожести на говорящего», — говорится в статье исследователей.

Примеры воспроизведения голосов Vall-E можно прослушать на GitHub. Большинство звучат идентично записям, несмотря на то, что использованы только короткие фрагменты. Несколько голосов звучат более роботизировано и напоминают голоса традиционного ПО для преобразования текста в звук.

Психологічний профорієнтаційний тест для IT-фахівців від Ithillel.
Пройдіть психологічний профорієнтаційний тест для IT-фахівців щоб дізнатися ваші сильні сторони, вподобання і інтереси і з'ясувати, яка IT-спеціальність вам підходить.
Пройти тест

Исследователи Microsoft считают, что Vall-E в будущем можно использовать как инструмент преобразования текста в голос, способ редактирования речи и систему создания аудио, соединив его с другими генеративными ИИ, такими как GPT-3.

Как и в случае со всеми другими моделями ИИ, есть беспокойство по поводу неправильного использования Vall-E — например для имитации голосов публичных деятелей, политиков или звезд (особенно если использовать это в сочетании с дипфейками). Преступники также смогут получить конфиденциальные данные, если заставят человека поверить, что он говорит с семьей, друзьями или официальными лицами. Некоторые системы безопасности также используют голосовую идентификацию. Что касается его влияния на рабочие места, то Vall-E, вероятно, будет более дешевой альтернативой для актеров дубляжа.

Но исследователи Vall-E говорят, что все эти риски можно снизить:

«Можно построить модель, которая будет определять, было ли аудио синтезировано Vall-E».

Microsoft, похоже, решительно взялась за развитие ИИ-технологий и их внедрение в собственные продукты. Языковую модель GPT от OpenAI попытаются интегрировать с Word, Outlook и PowerPoint, а ChatGPT — чат-бот, который генерирует тексты, похожие на человеческие, и дает развернутые ответы на вопросы — с марта добавят в версию поисковой системы Bing.

По сообщениям СМИ, Microsoft также ведет переговоры об инвестировании 10 миллиардов долларов в OpenAI. Соглашение предусматривает, что компания будет получать 75% прибыли ИИ-лаборатории, пока не возместит свои инвестиции. После достижения этой цели Microsoft получит 49% акций стартапа, другие инвесторы получат еще 49%, а некоммерческая материнская организация OpenAI — 2%.

Источник: Techspot

Disqus Comments Loading...