探索前沿技术!全新开源视频超分方法SeedVR与STAR,惊艳效果大揭秘

视频修复是一个棘手的问题,不仅要恢复清晰的画质,还得保证时间上的细节一致性,特别是当处理那些来源未知且劣化严重的视频时。这些问题让修复变得更加困难。字节跳动联合南洋理工大学和南京大学分别提出了 SeedVR 和 STAR 两套视频清晰化的解决方案。

SeedVR 是一个为实际视频修复任务设计的扩散式变换器,它可以处理任意长度和分辨率的视频。SeedVR 在合成视频、真实视频以及 AI 生成的视频修复任务上都表现出了极强的竞争力。STAR(基于T2V模型的真实世界视频超分辨率时空增强),利用T2V模型实现真实的空间细节和稳健的时间一致性。在全局注意力模块之前引入了局部信息增强模块(LIEM),用于丰富局部细节并减少劣化伪影。有效解决了真实世界视频超分辨率中的关键难题,实现了视觉细节的真实性与时间一致性的平衡。

01 SeedVR

SeedVR 是一种用于通用视频修复(VR)的扩散变换器(DiT)模型,能够高效应对分辨率限制问题。SeedVR 以 MM-DiT 作为其主干,并用窗口注意力机制替代了全自注意力。虽然已经有多种窗口注意力设计被研究过,但力求简化设计,因此采用了 Swin 注意力机制,从而构建了 Swin-MMDiT。
IMG_256

与以往的方法不同,Swin-MMDiT 在 8×8 压缩潜空间上采用了 64×64 的大窗口注意力,而不是通常用于低级视觉任务的 8×8 像素空间窗口注意力。在使用 Swin-MMDiT 处理任意分辨率的输入时,由于使用了大窗口,无法再假设输入的空间维度是窗口大小的整数倍。此外,Swin 的滑动窗口机制会导致时空体积边界处出现大小不均的 3D 窗口。为了解决这些问题,设计了一个 3D 旋转位置嵌入机制,用于在每个窗口内建模不同大小的窗口。

02 STAR

STAR(基于T2V模型的时空增强用于真实世界视频超分辨),通过利用T2V模型实现了逼真的空间细节与稳健的时间一致性。

IMG_256

STAR 包括四个模块:VAE、文本编码器、ControlNet 和集成了局部信息增强模块(LIEM)的 T2V 模型,其中 LIEM 用于缓解伪影问题。此外,还引入了动态频率(DF)损失,以在扩散步骤中自适应地调整对高频和低频分量的约束。通过所提出的 LIEM 和 DF 损失,STAR 实现了高水平的时空质量,减少了伪影并增强了复原的真实性。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容