Нейросеть Sora способна моделировать цифровые виртуальные миры — демо на примере Minecraft

Опубликовал
Катерина Даньшина

Первый генератор видео от OpenAI, кажется, имеет большие шансы достичь успехов в создании кинематографических или игровых проектов.

В статье исследователей компании под названием «Модели генерации видео как симуляторы мира» раскрываются ключевые аспекты архитектуры Sora: например, нейросеть может генерировать по текстовому запросу видео с произвольным разрешением и соотношением сторон (до 1080p); а также выполнять ряд задач по редактированию изображений и видео — от создания циклических видео и удлинения видео вперед или назад во времени до изменения фона.

Однако наиболее интригует упоминание о «моделировании цифровых миров» — во время эксперимента исследователи предоставили Sora подсказки со словом «Minecraft» и заставили ее воспроизвести убедительно похожий на игру интерфейс и динамику с одновременным управлением персонажем.

Так как это делает Sora? Старший исследователь Nvidia Джим Фан (через TechCrunch) отмечает, что эта нейросеть больше напоминает «физический двигатель, управляемый данными», чем творческий механизм. Это не просто создание отдельного изображения или видео, а определение физики каждого объекта в окружающей среде — и воспроизведение фотографии или видео (или интерактивного 3D-мира) на основе этих вычислений.

«Эти возможности свидетельствуют о том, что продолжение масштабирования видеомоделей является путем к разработке мощных симуляторов физического и цифрового мира, а также объектов, животных и людей, которые в них живут», — пишут исследователи OpenAI.

Sora, похоже, сможет проложить путь к более реалистичным — возможно, даже фотореалистичным — играм, созданным только из текстовых описаний. Это одновременно и захватывает и ужасает (если учесть проблемы с дипфейками) — возможно поэтому OpenAI открыла ее с довольно ограниченным доступом.

Disqus Comments Loading...