Meta випустила нову модель штучного інтелекту з відкритим кодом під назвою AudioCraft, яка дозволяє користувачам створювати музику та звуки за допомогою текстових підказок.
Модель складається із трьох «підмоделей», які призначені для різних сфер генерації звуків:
- MusicGen – модель, що використовує текстові дані для створення музики й була навчена на 20 000 годинах музики, «яка належить Meta або ліцензована спеціально для цієї мети». Інструмент TextToSample для генерації семплів, про який ми писали вчора, теж працює за її допомогою.
- AudioGen – модель, що створює аудіо з письмових підказок, імітуючи, наприклад гавкіт собак або звук кроків.
- EnCodec – покращена версія декодера Meta, що дозволяє створювати звуки з меншою кількістю артефактів.
Нижче можна прослухати зразки аудіо, згенеровані AudioCraft. Загалом звучить непогано, хоча й часом дещо штучно:
Текстова підказка: свист і вітер
Текстова підказка: сирени та гудіння двигуна, що наближаються та віддаляються
Текстова підказка: танцювальний поп-трек із мелодіями, що запам’ятовуються; тропічними перкусіями та бадьорими ритмами; ідеально підходить для пляжу.
Meta – не єдина компанія, яка поєднала музику з ШІ. Google створила MusicLM – велику мовну модель, яка генерує хвилинні звуки на основі текстових підказок, однак доступна лише для дослідників. Решта інструментів вже спричинили преценденти й невдоволення музичних студій – як-от ШІ-пісня, у якій звучить голос Дрейка та The Weeknd. Деякі музиканти навпаки заохочують використовувати їхній вокал як основу, як-от співачка Граймс.
Нині твори AudioCraft звучать як «ліфтова музика», яку можна використати для фону, а не створення хіта. Хоча Meta вірить, що її модель зможе започаткувати нову хвилю пісень, так само як синтезатори, які стали популярними колись і змінили музику.
Компанія каже, що AudioCraft потребує відкритого коду, щоб диверсифікувати дані, які використовуються для його навчання.
«Ми розуміємо, що наборам даних, які використовуються для навчання наших моделей, бракує різноманітності. Зокрема, використаний набір містить більшу частину музики в західному стилі та лише пари аудіо-тексту з текстом і метаданими, написаними англійською мовою», — кажуть в Meta.
Джерело: The Verge
Favbet Tech – це ІТ-компанія зі 100% украінською ДНК, що створює досконалі сервіси для iGaming і Betting з використанням передових технологіи та надає доступ до них. Favbet Tech розробляє інноваційне програмне забезпечення через складну багатокомпонентну платформу, яка здатна витримувати величезні навантаження та створювати унікальний досвід для гравців.
Повідомити про помилку
Текст, який буде надіслано нашим редакторам: