Новини

Vall-E — нова ШІ-технологія Microsoft, що надзвичайно точно імітує голос людини на основі 3-секундного семплу

Vall-E — нова ШІ-технологія Microsoft, що надзвичайно точно імітує голос людини на основі 3-секундного семплу

Дослідники Microsoft створили нову модель штучного інтелекту Vall-E, що здатна відтворити голос, ідентичний до людського. Зазначається, що Vall-E навчається на “дискретних кодах, отриманих зі стандартної моделі нейронного аудіокодека”, а також на записах 60 тисяч годин розмов (це у 100 разів більше, ніж у системах, що вже існують) понад 7 тисяч спікерів. Більшість діалогів взяті із загальнодоступних сайтів з аудіокнигами LibriVox.

Vall-E базується на технології EnCodec, яку Meta анонсувала в жовтні 2022-го року. Вона аналізує голос людини, розбиває інформацію на компоненти та синтезує варіації його звучання у різних фразах. Навіть прослухавши лише трисекундний семпл, Vall-E може відтворити тембр і емоційний тон мовця.

“Результати експерименту показують, що Vall-E значно перевершує сучасну систему TTS [ШІ, який відтворює голоси, яких він ніколи не чув] з точки зору природності мовлення та схожості на мовця”, — йдеться в статті дослідників.

Приклади відтворення голосів Vall-E можна прослухати на GitHub. Більшість звучить ідентично до записів, попри те, що використані лише короткі фрагменти. Кілька голосів звучать більш роботизовано та нагадують голоси традиційного ПЗ для перетворення тексту на звук.

Дослідники Microsoft вважають, що Vall-E у майбутньому можна застосовувати як інструмент перетворення тексту на голос, спосіб редагування мовлення та систему створення аудіо, поєднавши його з іншими генеративними ШІ, такими як GPT-3.

Курс
ФІНАНСОВИЙ ДИРЕКТОР
Ставайте досвідченим фахівцем з фінансів на рівні директора!
РЕЄСТРУЙТЕСЯ!
findirector

Vall-E — нова ШІ-технологія Microsoft, що надзвичайно точно імітує голос людини на основі 3-секундного семплу

Як і у випадку з усіма іншими моделями ШІ, є занепокоєння щодо неправильного використання Vall-E — наприклад для імітації публічних діячів, політиків чи зірок (особливо якщо використовувати це у поєднанні з діпфейками). Злочинці також зможуть отримати конфіденційні дані, якщо змусять людину повірити, що вона говорить з родиною, друзями чи офіційними особами. Деякі системи безпеки також використовують голосову ідентифікацію. Що стосується його впливу на робочі місця, то Vall-E, ймовірно, буде дешевшою альтернативою для акторів дубляжу. 

Але дослідники Vall-E кажуть, що усі ці ризики можна зменшити:

“Можна побудувати модель, яка визначатиме, чи був аудіокліп синтезований Vall-E”.

Microsoft, схоже, рішуче взялася за розвиток ШІ-технологій та їх впровадження у власні продукти. Мовну модель GPT від OpenAI спробують інтегрувати з Word, Outlook та PowerPoint, а ChatGPT — чатбот, що генерує схожі до написаних людиною тексти та дає розгорнуті відповіді на питання — з березня додадуть у версію пошукової системи Bing.

За повідомленнями ЗМІ Microsoft також веде перемовини про інвестування 10 мільярдів доларів в OpenAI. Угода передбачає, що компанія отримуватиме 75% прибутку ШІ-лабораторії, доки не відшкодує свої інвестиції. Після досягнення цієї цілі, Microsoft матиме 49% акцій стартапу, інші інвестори отримають ще 49%, а некомерційна материнська організація OpenAI — 2%.

ЗМІ: Microsoft інвестує $10 млрд в OpenAI — розробника чатбота ChatGPT, що генерує жахаюче людські тексти

Джерело: Techspot


Завантаження коментарів...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: