В июле Meta представила систему ИИ Make-a-Scene, предназначенную для преобразования текста в изображение. А теперь генеральный директор Meta Марк Цукерберг представил версию Make-a-Video, которая позволяет преобразовывать текст в видео.

Make-a-Video — это «новая система искусственного интеллекта, которая позволяет людям превращать текстовые описания в короткие высококачественные видеоклипы», — написал Цукерберг.

Функционально Video работает так же, как и Scene. Система полагается на сочетание обработки естественного языка и генеративных нейронных сетей для преобразования невизуальных описаний в изображения. Фактически она просто генерирует контент в другом формате. Исследователи говорят, что для обучения модели им нужно было изучить, как выглядит мир и как его описывают парные наборы данных текст-изображение, а также изучить, как мир двигается, используя видео. Такой подход позволил команде сократить время, необходимое для обучения видеомодели, и устранить необходимость в парных текстовых и видеоданных, сохранив при этом разнообразие.

Meta предлагает Make-a-Video как проект с открытым исходным кодом. Компания готова «делиться этим генеративным исследованием и результатами ИИ с сообществом для получения отзывов». Также отмечается, что компания стремится не допустить использования этого инструмента в пагубных целях. Потому исследовательская группа заблаговременно очистила обучающий набор данных Make-a-Video от любых изображений NSFW (материалы, содержащие обнажённую натуру, гуро, порнографию, сцены жестокости), а также от токсичных фраз.