Vall-E — нова ШІ-технологія Microsoft, що надзвичайно точно імітує голос людини на основі 3-секундного семплу

Дослідники Microsoft створили нову модель штучного інтелекту Vall-E, що здатна відтворити голос, ідентичний до людського. Зазначається, що Vall-E навчається на “дискретних кодах, отриманих зі стандартної моделі нейронного аудіокодека”, а також на записах 60 тисяч годин розмов (це у 100 разів більше, ніж у системах, що вже існують) понад 7 тисяч спікерів. Більшість діалогів взяті із загальнодоступних сайтів з аудіокнигами LibriVox.

Vall-E базується на технології EnCodec, яку Meta анонсувала в жовтні 2022-го року. Вона аналізує голос людини, розбиває інформацію на компоненти та синтезує варіації його звучання у різних фразах. Навіть прослухавши лише трисекундний семпл, Vall-E може відтворити тембр і емоційний тон мовця.

“Результати експерименту показують, що Vall-E значно перевершує сучасну систему TTS [ШІ, який відтворює голоси, яких він ніколи не чув] з точки зору природності мовлення та схожості на мовця”, — йдеться в статті дослідників.

Приклади відтворення голосів Vall-E можна прослухати на GitHub. Більшість звучить ідентично до записів, попри те, що використані лише короткі фрагменти. Кілька голосів звучать більш роботизовано та нагадують голоси традиційного ПЗ для перетворення тексту на звук.

Дослідники Microsoft вважають, що Vall-E у майбутньому можна застосовувати як інструмент перетворення тексту на голос, спосіб редагування мовлення та систему створення аудіо, поєднавши його з іншими генеративними ШІ, такими як GPT-3.

Як і у випадку з усіма іншими моделями ШІ, є занепокоєння щодо неправильного використання Vall-E — наприклад для імітації публічних діячів, політиків чи зірок (особливо якщо використовувати це у поєднанні з діпфейками). Злочинці також зможуть отримати конфіденційні дані, якщо змусять людину повірити, що вона говорить з родиною, друзями чи офіційними особами. Деякі системи безпеки також використовують голосову ідентифікацію. Що стосується його впливу на робочі місця, то Vall-E, ймовірно, буде дешевшою альтернативою для акторів дубляжу.

Але дослідники Vall-E кажуть, що усі ці ризики можна зменшити:

“Можна побудувати модель, яка визначатиме, чи був аудіокліп синтезований Vall-E”.

Microsoft, схоже, рішуче взялася за розвиток ШІ-технологій та їх впровадження у власні продукти. Мовну модель GPT від OpenAI спробують інтегрувати з Word, Outlook та PowerPoint, а ChatGPT — чатбот, що генерує схожі до написаних людиною тексти та дає розгорнуті відповіді на питання — з березня додадуть у версію пошукової системи Bing.

За повідомленнями ЗМІ Microsoft також веде перемовини про інвестування 10 мільярдів доларів в OpenAI. Угода передбачає, що компанія отримуватиме 75% прибутку ШІ-лабораторії, доки не відшкодує свої інвестиції. Після досягнення цієї цілі, Microsoft матиме 49% акцій стартапу, інші інвестори отримають ще 49%, а некомерційна материнська організація OpenAI — 2%.

ЗМІ: Microsoft інвестує $10 млрд в OpenAI — розробника чатбота ChatGPT, що генерує жахаюче людські тексти

Джерело: Techspot

Розділ Технології виходить за підтримки

Favbet Tech – це ІТ-компанія зі 100% украі‌нською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи‌ та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.

ЧИТАЦЬКА ДУМКА

В матеріалі написана нісенітниця? Претендуєте на експертність? Не згодні з автором? Ви справжній ерудит? — Тоді дайте аргументну відповідь, яка не загубиться в коментарях! Для цього навіть не потрібна реєстрація. Але тут не пишуть коротко — тільки ґрунтовна думка, не менше 77 слів.

Написати

Не підтримую
0

Експертні відповіді та аргументи читачів, які не згодні з автором.

Підтримую
0

Експертні відповіді та аргументи читачів, які підтримують автора.

Vall-E — нова ШІ-технологія Microsoft, що надзвичайно точно імітує голос людини на основі 3-секундного семплу

Популярні новини