Рубрики NoticiasSuaveTecnologías

OpenAI ha añadido una generación de imágenes mejorada a GPT-4o — ahora en ChatGPT por defecto.

Publicado por Vadym Karpus

OpenAI ha introducido una mejora largamente esperada en la generación de imágenes. Ahora, en lugar de un modelo independiente como DALL-E, el nuevo y mejorado generador de imágenes forma parte del GPT-4o.

Hay muchos modelos de IA en el mercado que pueden crear escenas visuales impresionantes, pero a menudo tienen dificultades para mostrar texto, logotipos y otros elementos que no son infrecuentes en la vida cotidiana.

OpenAI afirma que su nueva generación de imágenes GPT-4o resuelve estas deficiencias. Puede reproducir texto con precisión y seguir mejor las instrucciones gracias a su base de conocimientos y al contexto del chat. Además, el nuevo modelo permite editar imágenes cargadas o crear otras nuevas utilizando la imagen cargada como inspiración visual.

Accesibilidad y nuevas oportunidades

El generador de imágenes actualizado en GPT-4o ya está empezando a llegar a todos los usuarios de ChatGPT Plus, Pro, Team y Free. Como este modelo se convertirá en el estándar para la generación de imágenes en ChatGPT, los usuarios ya no tendrán que seleccionarlo manualmente antes de introducir una consulta.

Los usuarios podrán personalizar la imagen especificando la relación de aspecto, los colores exactos (códigos HEX) o incluso un fondo transparente. En las próximas semanas, el nuevo generador también estará disponible para los usuarios de ChatGPT Enterprise y Edu.

El nuevo modelo también puede utilizarse en Sora para crear imágenes o a través de un GPT especial de DALL-E. Para los desarrolladores, la compatibilidad con la generación de imágenes a través de la API GPT-4o estará disponible en las próximas semanas.

Limitaciones del modelo

A pesar de las numerosas mejoras, el modelo sigue teniendo algunas limitaciones:

  • Tiempo de generación: debido al mayor nivel de detalle, se puede tardar hasta un minuto en crear una imagen.
  • Recorte: las imágenes largas, como los carteles, pueden recortarse demasiado, sobre todo en la parte inferior.
  • Inventar detalles: en las consultas con información contextual insuficiente, el modelo puede «inferir» detalles.
  • Limitaciones de conocimiento: al crear conceptos complejos (por ejemplo, la tabla periódica completa), es posible que el modelo no reproduzca con precisión más de 10-20 objetos a la vez.
  • Dificultades con las lenguas no latinas: los caracteres pueden aparecer incorrectos o distorsionados.
  • Editar partes de una imagen – Corregir detalles individuales (por ejemplo, faltas de ortografía) no siempre funciona sin provocar efectos secundarios en la imagen.
  • Problemas con los detalles en tamaños pequeños: es posible que el modelo no muestre correctamente los detalles pequeños.

OpenAI tiene previsto solucionar estas limitaciones en las próximas semanas y meses.

Todas las imágenes creadas con este generador contendrán metadatos C2PA, y la herramienta interna de OpenAI podrá verificar su origen.

A pesar de algunas limitaciones, el nuevo generador de imágenes GPT-4o mejora significativamente la precisión y flexibilidad de la creación de imágenes. OpenAI promete nuevas mejoras, por lo que los usuarios dispondrán de una herramienta aún mejor y más cómoda para trabajar con imágenes.

RecientementeOpenAI lanza GPT-4.5, pero con acceso limitado — porque «las GPU» se han agotado.

Fuente: neowin