OpenAI додала в GPT-4o покращену генерацію зображень — тепер в ChatGPT за замовчанням — Приклад роботи нового ChatGPT-4o

OpenAI представила довгоочікуване покращення генерації зображень. Тепер замість окремої моделі, як-от DALL·E, новий удосконалений генератор зображень є частиною GPT-4o.

На ринку існує безліч ШІ-моделей для створення вражаючих візуальних сцен, але вони часто мають труднощі з відображенням тексту, логотипів та інших елементів, які не рідко зустрічаються у повсякденному житті.

OpenAI стверджує, що її нова генерація зображень GPT-4o вирішує ці недоліки. Вона може точно відтворювати текст і краще слідувати інструкціям завдяки своїй базі знань і контексту чату. Крім того, нова модель дозволяє редагувати завантажені зображення або створювати нові, використовуючи завантажене зображення як візуальне натхнення.

Доступність і нові можливості

Оновлений генератор зображень у GPT-4o вже починає розгортатися для всіх користувачів ChatGPT Plus, Pro, Team та Free. Оскільки ця модель стане стандартною для генерації зображень у ChatGPT, користувачам більше не потрібно буде вибирати її вручну перед введенням запиту.

Користувачі можуть налаштовувати зображення, вказуючи співвідношення сторін, точні кольори (HEX-коди) або навіть прозорий фон. У найближчі тижні новий генератор з’явиться і для користувачів ChatGPT Enterprise та Edu.

Нову модель також можна використовувати в Sora для створення зображень або через спеціальний DALL·E GPT. Для розробників підтримка генерації зображень через API GPT-4o з’явиться найближчими тижнями.

Обмеження моделі

Попри численні покращення, у моделі все ще є деякі обмеження:

Час генерації – через підвищену деталізацію створення зображення може займати до однієї хвилини.
Кадрування – довгі зображення, наприклад постери, можуть обрізатися надто щільно, особливо в нижній частині.
Вигадування деталей – у запитах з недостатньою контекстною інформацією модель може «домислювати» деталі.
Обмеження знань – при створенні складних концепцій (наприклад, повної періодичної таблиці) модель може неточно відтворювати більше ніж 10-20 об’єктів одночасно.
Труднощі з нелатинськими мовами – символи можуть відображатися некоректно або спотворюватися.
Редагування частин зображення – виправлення окремих деталей (наприклад, орфографічних помилок) не завжди працює без побічних змін у зображенні.
Проблеми з деталізацією на малих розмірах – модель може некоректно відображати дрібні деталі.

OpenAI планує виправляти ці обмеження у найближчі тижні та місяці.

Усі зображення, створені за допомогою цього генератора, міститимуть C2PA-метадані, а внутрішній інструмент OpenAI зможе перевіряти їхнє походження.

Попри деякі обмеження, новий генератор зображень GPT-4o значно покращує точність і гнучкість створення зображень. OpenAI обіцяє подальші вдосконалення, тож користувачів чекає ще якісніший та зручніший інструмент для роботи із зображеннями.

Нещодавно OpenAI запустила GPT-4.5, але з обмеженим доступом — бо «скінчились GPU».