Новости Технологии 04.06.2025 в 14:17 comment views icon

ИИ Chain-of-Zoom увеличивает фото в 256 раз без потери деталей

author avatar

Олександр Федоткін

Автор новостей и статей

ИИ Chain-of-Zoom увеличивает фото в 256 раз без потери деталей
Раздел Технологии выходит при поддержке

Исследователи из Южной Кореи разработали инструмент Chain-of-Zoom на основе искусственного интеллекта, способный в 256 раз увеличить фото с низким разрешением, сгенерировав реалистичную детализацию.

Ученые из KAIST AI под руководством Кима Джечула стремились решить проблему улучшения качества фото с низким разрешением, сохраняя четкую и реалистичную детализацию. Традиционные системы сверхвысокого разрешения для отдельного изображения работают по принципу угадывания недостающих деталей в запросах по увеличению масштаба изображения. 

Генеративные модели обучены создавать реалистичные версии фото с низким разрешением, предсказывая те детали, которых не хватает на изображении. Однако эффективность таких моделей зависит от того, по какой технологии они обучались. Они часто становятся неэффективными при необходимости выхода за привычные пределы.

«Современные модели превосходны в отношении масштабных коэффициентов, на которых они были обучены, но терпят неудачу, когда их просят увеличить изображение, выходящее за этот диапазон», — объясняют разработчики из KAIST AI. 

Chain-of-Zoom эффективно преодолевает ограничения, используя пошаговый процесс масштабирования. Этот ИИ не растягивает изображение в 256 раз за один подход, ведь тогда картинка была бы размытой, а детали выдуманными. Вместо этого Chain-of-Zoom пошагово масштабирует изображение, опираясь на каждый предыдущий шаг, используя модель сверхвысокого разрешения — например, хорошо обученную модель диффузии — для уточнения изображения.

К тому же, языковая модель Vision-Language также участвует, генерируя языковые подсказки, которые помогают Chain-of-Zoom представить, что должно появиться в изображении на следующем этапе. Vision-Language подбирает несколько точных словосочетаний, вроде: «прожилки листа», «текстура меха», «кирпичная стена» и тому подобное, которые направляют ИИ к дальнейшей детализации изображения. 

В то время как масштаб увеличивается, первоначальное изображение теряет четкость и визуально становится трудно распознать контекст. В этот момент речевые подсказки играют решающее значение. Однако генерирование правильных речевых подсказок непростое дело. Стандартные языковые модели могут повторяться, генерировать странные словосочетания и неверно интерпретировать входные данные.

ШІ Chain-of-Zoom збільшує фото у 256 разів без втрати деталей
КАИСТ ИИ

Для оптимизации этого процесса исследователи использовали обучение с подкреплением и обратной связью с человеком. Они научили свою модель генерации подсказок соответствовать предпочтениям человека, используя технику, называемую обобщенной оптимизацией политики вознаграждения.

Обучение происходило с использованием трех видов обратной связи:

  • Человек-критик оценивал подсказки, сгенерированные языковой моделью, на соответствие изображению;
  • Речевая модель получала наказание за запутанные и некорректные фразы;
  • Специальный фильтр отсеивал текст, который повторялся.

В процессе обучения подсказки становились более четкими, конкретными и полезными. Результаты Chain-of-Zoom оценивались с использованием нескольких безреферентных метрик качества, таких как NIQE и CLIPIQA. На четырех уровнях увеличения (4×, 16×, 64×, 256×) CoZ последовательно превосходил альтернативы, особенно в высших масштабах.

Другие преимущества этого инструмента заключаются в том, что базовая модель сверхвысокого разрешения не требует переобучения. Chain-of-Zoom будет очень удобным для приложений, требующих быстрого, высокоточного масштабирования без использования сложных вычислительных мощностей.

Chain-of-Zoom может найти применение в медицине, где улучшенная детализация может расширить возможности диагностики, в сфере видеонаблюдения с камер, где необходима высокая детализация объектов, в восстановлении старых фото, научной визуализации, в сферах микроскопии и астрономии.

Весомым недостатком этой технологии является то, что после значительного увеличения размера фото оригинал фактически исчезнет, а останется только его искусственная копия, сгенерированная ИИ. Таким образом, технология может использоваться с целью манипулирования визуальными данными для создания фейковых изображений.

«Высококачественная генерация на основе входных данных с низким разрешением может вызвать опасения относительно дезинформации или несанкционированной реконструкции конфиденциальных визуальных данных», — признают разработчики.

Прячьте ваши SMS: китайцы читают текст на расстоянии 1,3 км лазером без всякой оптики

Результаты были опубликованы на сервере препринтов arXiv

Источник: ZMEScience

Раздел Технологии выходит при поддержке

Favbet Tech – это IT-компания со 100% украинской ДНК, которая создает совершенные сервисы для iGaming и Betting с использованием передовых технологий и предоставляет доступ к ним. Favbet Tech разрабатывает инновационное программное обеспечение через сложную многокомпонентную платформу, способную выдерживать огромные нагрузки и создавать уникальный опыт для игроков.


Що думаєте про цю статтю?
Голосів:
Файно є
Файно є
Йой, най буде!
Йой, най буде!
Трясця!
Трясця!
Ну такої...
Ну такої...
Бісить, аж тіпає!
Бісить, аж тіпає!
Loading comments...

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: