超清视频修复开源框架KEEP:不丢失脸部细节

许多现有的视频人脸修复方法,要么简单地将视频超分辨率网络应用于面部数据集,要么独立处理每一帧图像。这导致难以同时保持面部细节的还原和时间上的一致性。为了解决这一问题,南洋理工大学的研究团队推出了一个全新的框架,名为KEEP(Kalman-Inspired Feature Propagation),能够将低清视频中的人脸修复为高清。KEEP技术专门用于修复视频中模糊的人脸。这个技术可以让原本模糊、低分辨率的人脸变得清晰,最重要的是,在人脸转动方向时,修复后的效果非常稳定,不会出现错误修复的情况。KEEP 的核心想法来自卡尔曼滤波原理,它让这项技术具备了“记忆”功能。简单来说,KEEP 可以利用之前修复的帧中的信息来帮助和调整当前帧的修复效果。这个过程大大增强了视频中人脸细节的连贯性和一致性。

视频详情

01 整体架构—
KEEP模型由四个主要部分组成:编码器、解码器、卡尔曼滤波网络和跨帧注意力(CFA)。编码器和解码器一起构建了一个叫VQGAN的生成模型,用来生成或还原图像。卡尔曼滤波网络则是用来结合卡尔曼滤波的方法,帮助在时间上更好地传递信息,并保持模型中稳定的隐含信息。 IMG_259

具体来说,卡尔曼滤波器通过不断地将当前帧的观测数据和之前帧的预测数据融合起来,来得到对当前帧更准确的估计。此外,解码器中的跨帧注意力(CFA)层还进一步帮助保持局部的时间一致性,确保信息在各帧之间的传递更加稳定。通过这些设计,KEEP模型可以更好地累积证据,提高人脸视频超分辨率的时间一致性效果。

02 状态空间和卡尔曼滤波器—状态空间模型是一种描述系统动态变化的工具,而卡尔曼滤波器则是通过不断融合预测与观测数据来提供更精准估计的算法。

视频详情

a) 状态空间模型是用来描述一个动态系统的工具。简单来说,f 负责告诉系统的隐藏状态是如何随时间变化的;g 是一个生成模型,可以理解为它帮助“生成”出新的数据;而 h 则是用来模拟数据从干净到变差的过程。 IMG_263b) 这个部分讲的是卡尔曼滤波器的工作原理。在每个时间点上,会把之前预测的状态(蓝色虚线框)和当前新观测到的数据(红色虚线框)通过一个叫“卡尔曼增益”的方法融合起来,这个增益是由卡尔曼增益网络(KGN)计算出来的。这样融合后的结果就能给出一个更准确的估计,然后就可以用它来生成需要的干净数据。

© 版权声明
THE END
喜欢就支持一下吧
点赞9 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容