Исследователи Google создали модель искусственного интеллекта под названием MusicLM, которая способна генерировать музыкальные произведения из текстовых описаний аналогично тому, как DALL-E генерирует изображения из текстов.

Сейчас Google не даёт возможность работать с MusicLM обычным пользователям, но компания демонстрирует несколько примеров работы модели. Например, доступны мелодии, которые звучат как полноценные композиции из описаний длиной в абзац. Они включают описание жанра, атмосферы и даже конкретных инструментов. Также доступны 5-минутные фрагменты, созданные из одного или двух слов, таких как «мелодичное техно». Дополнительно демонстрируется работа модели в режиме истории, когда одна композиция содержит разные описания для разных фрагментов. Модель может даже имитировать человеческий вокал. На следующей странице можно ознакомиться с музыкальными композициями, созданными MusicLM в различных режимах работы.

Для специалистов в сфере ИИ компания Google подготовила исследовательскую документацию, подробно поясняющую принципы работы модели MusicLM. Вместе с тем Google не намерена открывать доступ к системе для широкой общественности.

«На данный момент у нас нет планов выпускать модели», — заключает документ, ссылаясь на риски «потенциального незаконного присвоения творческого контента» (читай: плагиата) и потенциального культурного присвоения или искажения.

Google заявляет, что публикует набор данных с примерно 5500 парами музыка-текст, которые могут помочь при обучении и оценке других музыкальных систем ИИ.

Источник: The Verge