Sora — нова модель штучного інтелекту OpenAI, яка генерує відео за текстовим описом

Опублікував Катерина Даньшина

Остання модель OpenAI перетворює текстові підказки на «складні реалістичні сцени з кількома персонажами, певними типами руху та точними деталями об’єкта та фону» — тривалістю до хвилини.

Компанія також зазначає, що Sora може розуміти, як об’єкти «існують у фізичному світі», а також «точно інтерпретувати реквізит і генерувати переконливих персонажів, які виражають яскраві емоції». Модель також може генерувати відео на основі нерухомого зображення та заповнювати відсутні кадри в готовому відео або розширювати його.

Згенеровані Sora демо, опубліковані на X, включають зокрема проліт камери засніженою вулицею Токіо — щоправда, якщо уважно придивитись, можна відшукати ознаки роботи штучного інтелекту (як-от роз’єднані зі стовбурами крони дерев).

Кілька років тому саме генератори тексту в зображення, такі як Midjourney, привернули велику увагу до галузі ШІ, однак нині такі компанії, як Runway і Pika взялися удосконалювати технологію для відео. Lumiere від Google наразі можна вважати основним конкурентом OpenAI у цій сфері (хоча тривалість ролика у цієї моделі обмежена до 5 секунд).

Наразі Sora доступна лише для «червоних команд», які оцінюють модель на предмет потенційної шкоди та ризиків. OpenAI також пропонує доступ для деяких художників, дизайнерів і режисерів, щоб отримати відгуки.

Раніше цього місяця OpenAI оголосила, що додає водяні знаки до свого інструменту для перетворення тексту в зображення DALL-E 3, але зазначає, що їх можна «легко видалити».

Приклади відео, згенеровані за допомогою Sora

Контент сайту призначений для осіб віком від 21 року. Переглядаючи матеріали, ви підтверджуєте свою відповідність віковим обмеженням.

Cуб'єкт у сфері онлайн-медіа; ідентифікатор медіа - R40-06029.