Новая модель ИИ превращает размытое видео в четкое

Опубликовал Олександр Федоткін

Исследователи из Высшей школы искусственного интеллекта UNIST в Южной Корее разработали усовершенствованную модель ИИ «BF-STVSR», способную одновременно улучшать разрешение видео и частоту кадров.

Ученые под руководством профессора Джеджуна Ю, первого автора Энджина Кима и соавтора Хёнджин Ким представили усовершенствованную модель «BF-STVSR», которая эффективно повышает как разрешение видео так и частоту кадров одновременно. Традиционные методы улучшения качества видео с помощью ИИ обычно предусматривают повышение разрешения и частоты кадров отдельно друг от друга. 

В значительной степени модели ИИ полагаются на предварительно обученные сети прогнозирования оптического потока. Оптический поток вычисляет направление и скорость движения объекта на видео с целью генерации промежуточных кадров. Однако такой метод предполагает сложные вычисления и уязвим к накоплению многочисленных ошибок, что ограничивает как скорость, так и качество улучшения видео.

arXiv

«BF-STVSR» использует методы обработки сигналов, адаптированные под конкретное видео. Это позволяет модели изучать двунаправленное движение между кадрами независимо от внешних сетей оптического потока. Выводя контуры объекта и поток движения, модель эффективно повышает как разрешение, так и частоту кадров одновременно, что приводит к более естественной и последовательной реконструкции видео.

Применение этой модели ИИ к видео низкого разрешения и с низкой частотой кадров продемонстрировало превосходную производительность по сравнению с существующими моделями, о чем свидетельствуют более высокие показатели пикового отношения сигнал-шум (PSNR) и индекса структурного сходства (SSIM). Эти показатели демонстрируют, что даже видео с оживленным движением сохраняют четкие, неискаженные фигуры людей и остальную детализацию. 

«Эта технология имеет широкое применение: от восстановления записей с камер видеонаблюдения или записей черного ящика, снятых на недорогих устройствах, до быстрого улучшения сжатых потоковых видео высококачественного медиаконтента. Она также может принести пользу в таких областях, как медицинская визуализация и виртуальная реальность», — объясняет профессор Джеджун Ю. 

Результаты представлены на сервере препринтов arXiv

Источник: TechXplore