Новини Технології 10.01.2023 о 16:55 comment views icon

Vall-E — нова ШІ-технологія Microsoft, що надзвичайно точно імітує голос людини на основі 3-секундного семплу

author avatar
https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg *** https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg *** https://itc.ua/wp-content/uploads/2022/09/Katya-96x96.jpg

Катерина Даньшина

Авторка новин

Розділ Технології виходить за підтримки Favbet Tech

Дослідники Microsoft створили нову модель штучного інтелекту Vall-E, що здатна відтворити голос, ідентичний до людського. Зазначається, що Vall-E навчається на “дискретних кодах, отриманих зі стандартної моделі нейронного аудіокодека”, а також на записах 60 тисяч годин розмов (це у 100 разів більше, ніж у системах, що вже існують) понад 7 тисяч спікерів. Більшість діалогів взяті із загальнодоступних сайтів з аудіокнигами LibriVox.

Vall-E базується на технології EnCodec, яку Meta анонсувала в жовтні 2022-го року. Вона аналізує голос людини, розбиває інформацію на компоненти та синтезує варіації його звучання у різних фразах. Навіть прослухавши лише трисекундний семпл, Vall-E може відтворити тембр і емоційний тон мовця.

“Результати експерименту показують, що Vall-E значно перевершує сучасну систему TTS [ШІ, який відтворює голоси, яких він ніколи не чув] з точки зору природності мовлення та схожості на мовця”, — йдеться в статті дослідників.

Приклади відтворення голосів Vall-E можна прослухати на GitHub. Більшість звучить ідентично до записів, попри те, що використані лише короткі фрагменти. Кілька голосів звучать більш роботизовано та нагадують голоси традиційного ПЗ для перетворення тексту на звук.

Дослідники Microsoft вважають, що Vall-E у майбутньому можна застосовувати як інструмент перетворення тексту на голос, спосіб редагування мовлення та систему створення аудіо, поєднавши його з іншими генеративними ШІ, такими як GPT-3.

Vall-E — нова ШІ-технологія Microsoft, що надзвичайно точно імітує голос людини на основі 3-секундного семплу

Як і у випадку з усіма іншими моделями ШІ, є занепокоєння щодо неправильного використання Vall-E — наприклад для імітації публічних діячів, політиків чи зірок (особливо якщо використовувати це у поєднанні з діпфейками). Злочинці також зможуть отримати конфіденційні дані, якщо змусять людину повірити, що вона говорить з родиною, друзями чи офіційними особами. Деякі системи безпеки також використовують голосову ідентифікацію. Що стосується його впливу на робочі місця, то Vall-E, ймовірно, буде дешевшою альтернативою для акторів дубляжу. 

Практичний інтенсивний курс з дизайну - Design Booster від Powercode academy.
Навчіться дизайну з нуля за 3 місяці і заробляйте перші $1000, навіть якщо ви не маєте креативного мислення, смаку або вміння малювати. Отримайте практичні навички, необхідні для успішної кар'єри в дизайні.
Зарееструватися

Але дослідники Vall-E кажуть, що усі ці ризики можна зменшити:

“Можна побудувати модель, яка визначатиме, чи був аудіокліп синтезований Vall-E”.

Microsoft, схоже, рішуче взялася за розвиток ШІ-технологій та їх впровадження у власні продукти. Мовну модель GPT від OpenAI спробують інтегрувати з Word, Outlook та PowerPoint, а ChatGPT — чатбот, що генерує схожі до написаних людиною тексти та дає розгорнуті відповіді на питання — з березня додадуть у версію пошукової системи Bing.

За повідомленнями ЗМІ Microsoft також веде перемовини про інвестування 10 мільярдів доларів в OpenAI. Угода передбачає, що компанія отримуватиме 75% прибутку ШІ-лабораторії, доки не відшкодує свої інвестиції. Після досягнення цієї цілі, Microsoft матиме 49% акцій стартапу, інші інвестори отримають ще 49%, а некомерційна материнська організація OpenAI — 2%.

ЗМІ: Microsoft інвестує $10 млрд в OpenAI — розробника чатбота ChatGPT, що генерує жахаюче людські тексти

Практичний інтенсивний курс з дизайну - Design Booster від Powercode academy.
Навчіться дизайну з нуля за 3 місяці і заробляйте перші $1000, навіть якщо ви не маєте креативного мислення, смаку або вміння малювати. Отримайте практичні навички, необхідні для успішної кар'єри в дизайні.
Зарееструватися

Джерело: Techspot

Розділ Технології виходить за підтримки Favbet Tech

Favbet Tech – це ІТ-компанія зі 100% українською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологій та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців. IT-компанія входить у групу компаній FAVBET.


Loading comments...

Повідомити про помилку

Текст, який буде надіслано нашим редакторам: