腾讯提出了一种全新框架StereoCrafter,可以将普通的2D视频转换为沉浸式的立体3D视频,满足人们对3D内容日益增长的需求。这项技术特别适用于打造像 Apple Vision Pro 和 3D 显示器这样需要高质量画面的设备。StereoCrafter方法利用了基础模型作为先验知识,克服了传统方法的局限,提升了转换效果,确保生成的内容足够逼真和细腻。
这个系统分为两个主要步骤:深度视频投影:通过深度信息对视频进行变形处理,并提取遮挡区域的掩膜。立体视频补全:填补遮挡区域并生成完整的3D视频。StereoCrafter采用了预训练的“稳定视频扩散模型”作为核心技术,同时为立体视频补全任务设计了一套精细的微调方案。此外,为了解决输入视频长度和分辨率不同的问题,探索了自回归策略和分块处理的方法,灵活应对各种情况。
01 技术原理
—
StereoCrafter的整体框架包含两个主要阶段。在第一阶段,从单目视频中估计视频深度,并通过基于深度的视频 splatting(可理解为一种根据深度信息将图像重新投影的技术)获得翘曲(变形)视频及其遮挡掩码,这里使用的输入是左视频和视频深度。然后,在第二阶段,训练一个立体视频修复模型,根据遮挡掩码填充翘曲视频中的空洞区域以合成右视频。
StereoCrafter方法的构建训练数据集的流程如下。在整理了大量立体视频之后,为每个数据样本生成视频深度/视差、翘曲左视频和遮挡掩码,同时使用右视频作为真实标签(ground truth)。
通过对比实验,可以看到StereoCrafter方法在将二维图像转换为三维立体视觉时,不仅能够生成高质量的立体效果,而且在使用各种深度估算技术时,能够确保生成的三维内容与原始的二维左视角输入相匹配。
这意味着无论采用哪种深度估计方法,都能保证最终的3D输出既自然又准确地反映了原始2D图像的内容和结构,提供了一个稳定且可靠的转换过程。这样的特性对于立体视频修复、增强现实等应用场景非常重要。
暂无评论内容