Остання модель OpenAI перетворює текстові підказки на «складні реалістичні сцени з кількома персонажами, певними типами руху та точними деталями об’єкта та фону» — тривалістю до хвилини.

Компанія також зазначає, що Sora може розуміти, як об’єкти «існують у фізичному світі», а також «точно інтерпретувати реквізит і генерувати переконливих персонажів, які виражають яскраві емоції». Модель також може генерувати відео на основі нерухомого зображення та заповнювати відсутні кадри в готовому відео або розширювати його.

Згенеровані Sora демо, опубліковані на X, включають зокрема проліт камери засніженою вулицею Токіо — щоправда, якщо уважно придивитись, можна відшукати ознаки роботи штучного інтелекту (як-от роз’єднані зі стовбурами крони дерев).

Кілька років тому саме генератори тексту в зображення, такі як Midjourney, привернули велику увагу до галузі ШІ, однак нині такі компанії, як Runway і Pika взялися удосконалювати технологію для відео. Lumiere від Google наразі можна вважати основним конкурентом OpenAI у цій сфері (хоча тривалість ролика у цієї моделі обмежена до 5 секунд).

Наразі Sora доступна лише для «червоних команд», які оцінюють модель на предмет потенційної шкоди та ризиків. OpenAI також пропонує доступ для деяких художників, дизайнерів і режисерів, щоб отримати відгуки.

Раніше цього місяця OpenAI оголосила, що додає водяні знаки до свого інструменту для перетворення тексту в зображення DALL-E 3, але зазначає, що їх можна «легко видалити».

Приклади відео, згенеровані за допомогою Sora

ЧИТАЦЬКА ДУМКА

В матеріалі написана нісенітниця? Претендуєте на експертність? Не згодні з автором? Ви справжній ерудит? — Тоді дайте аргументну відповідь, яка не загубиться в коментарях! Для цього навіть не потрібна реєстрація. Але тут не пишуть коротко — тільки ґрунтовна думка, не менше 77 слів.