KAIST AI
Investigadores de Corea del Sur han desarrollado una herramienta de zoom en cadena basada en la inteligencia artificial que puede ampliar 256 veces fotos de baja resolución, generando detalles realistas.
Científicos de La IA del KAIST, dirigida por Kim Jaechul, trató de resolver el problema de mejorar la calidad de las fotos de baja resolución manteniendo detalles claros y realistas. Tradicional sistemas de ultra alta resolución para una sola imagen funcionan según el principio de adivinar los detalles que faltan en las solicitudes de zoom de las imágenes.
Modelos generativos se entrenan para crear versiones realistas de baja resolución de una foto, prediciendo los detalles que faltan en la imagen. Sin embargo, la eficacia de estos modelos depende de la tecnología con la que fueron entrenados. A menudo se vuelven ineficaces cuando se trata de ir más allá de los límites habituales.
«Los modelos actuales son excelentes en relación con los factores de escala en los que fueron entrenados, pero fallan cuando se les pide que amplíen una imagen que va más allá de este rango», — explican los desarrolladores de KAIST AI.
Cadena de zoom eficaz supera las limitaciones, mediante un proceso de escalado paso a paso. Esta IA no amplía la imagen 256 veces de una sola vez, lo que haría que la imagen se viera borrosa y los detalles parecieran falsos. En su lugar, Chain-of-Zoom amplía la imagen paso a paso, basándose en cada paso anterior, utilizando un modelo de altísima resolución -por ejemplo, un modelo de difusión bien entrenado- para refinar la imagen.
Además, el modelo de lenguaje Vision-Language también interviene generando pistas lingüísticas que ayudan a Chain-of-Zoom a imaginar lo que debe aparecer en la imagen en el siguiente paso. Vision-Language selecciona varias frases precisas, como: «venas de las hojas», «textura de la piel», «pared de ladrillo», etc., que guían a la IA para detallar aún más la imagen.
A medida que aumenta la escala, la imagen original pierde claridad y resulta difícil reconocer visualmente el contexto. En este punto, las claves lingüísticas son cruciales. Sin embargo, generar las claves lingüísticas adecuadas no es fácil. Los modelos lingüísticos estándar pueden ser repetitivos, generar frases extrañas e interpretar mal los valores atípicos.
Para optimizar este proceso, los investigadores utilizaron el aprendizaje por refuerzo y la retroalimentación humana. Entrenaron su modelo de generación de pistas para que coincidiera con las preferencias humanas mediante una técnica denominada optimización generalizada de la política de recompensas.
La formación se basó en tres tipos de comentarios:
A medida que avanzaba la formación, las indicaciones se hacían más claras, específicas y útiles. Los resultados de Chain-of-Zoom se evaluaron utilizando varias métricas de calidad sin referencias, como NIQE y CLIPIQA. En cuatro niveles de aumento (4×, 16×, 64×, 256×), CoZ superó sistemáticamente a las alternativas, especialmente en las escalas más altas.
Otras ventajas de esta herramienta son que el modelo de ultraalta resolución subyacente no requiere reentrenamiento. Chain-of-Zoom será muy útil para aplicaciones que requieran un zoom rápido y de alta precisión sin necesidad de utilizar una potencia de cálculo compleja.
Chain-of-Zoom puede utilizarse en medicina, donde la mejora del detalle puede aumentar la capacidad de diagnóstico, en videovigilancia, donde se requiere un alto nivel de detalle, en la restauración de fotos antiguas, en imágenes científicas y en microscopía y astronomía.
Un inconveniente importante de esta tecnología es que, tras un aumento significativo del tamaño de la foto, el original desaparecerá realmente y sólo quedará una copia artificial generada por la IA. Por tanto, la tecnología puede utilizarse para manipular datos visuales con el fin de crear imágenes falsas.
«La generación de alta calidad a partir de datos de entrada de baja resolución puede suscitar preocupación por la desinformación o la reconstrucción no autorizada de datos visuales sensibles», — reconocen los desarrolladores.
Los resultados se publicaron en el servidor de preimpresos arXiv
Fuente: ZMEScience