Нова ШІ-модель Meta може стати ‎новим синтезатором в світі звуків… або просто генератором «‎ліфтової музики»

Опубликовал
Катерина Даньшина

Meta випустила нову модель штучного інтелекту з відкритим кодом під назвою AudioCraft, яка дозволяє користувачам створювати музику та звуки за допомогою текстових підказок.

Модель складається із трьох «‎підмоделей», які призначені для різних сфер генерації звуків:

  • MusicGen – модель, що використовує текстові дані для створення музики й була навчена на 20 000 годинах музики, «‎яка належить Meta або ліцензована спеціально для цієї мети». Інструмент TextToSample для генерації семплів, про який ми писали вчора, теж працює за її допомогою.
  • AudioGen – модель, що створює аудіо з письмових підказок, імітуючи, наприклад гавкіт собак або звук кроків.
  • EnCodec – покращена версія декодера Meta, що дозволяє створювати звуки з меншою кількістю артефактів.

Нижче можна прослухати зразки аудіо, згенеровані AudioCraft. Загалом звучить непогано, хоча й часом дещо штучно:

Текстова підказка: свист і вітер

Онлайн-курс "Директор з продажу" від Laba.
Як стратегічно впливати на дохід компанії, мотивувати сейлзів перевиконувати KPI та впроваджувати аналітику — навчить комерційний директор Laba з 12-річним досвідом у продажах.
Приєднатись до курсу

Текстова підказка: сирени та гудіння двигуна, що наближаються та віддаляються

Текстова підказка: танцювальний поп-трек із мелодіями, що запам’ятовуються; тропічними перкусіями та бадьорими ритмами; ідеально підходить для пляжу.

Meta – не єдина компанія, яка поєднала музику з ШІ. Google створила MusicLM – велику мовну модель, яка генерує хвилинні звуки на основі текстових підказок, однак доступна лише для дослідників. Решта інструментів вже спричинили преценденти й невдоволення музичних студій – як-от ШІ-пісня, у якій звучить голос Дрейка та The Weeknd. Деякі музиканти навпаки заохочують використовувати їхній вокал як основу, як-от співачка Граймс.

Нині твори AudioCraft звучать як «‎ліфтова музика», яку можна використати для фону, а не створення хіта. Хоча Meta вірить, що її модель зможе започаткувати нову хвилю пісень, так само як синтезатори, які стали популярними колись і змінили музику.

Компанія каже, що AudioCraft потребує відкритого коду, щоб диверсифікувати дані, які використовуються для його навчання.

«Ми розуміємо, що наборам даних, які використовуються для навчання наших моделей, бракує різноманітності. Зокрема, використаний набір містить більшу частину музики в західному стилі та лише пари аудіо-тексту з текстом і метаданими, написаними англійською мовою», — кажуть в Meta.

Джерело: The Verge

Disqus Comments Loading...