探索全新开源技术!DisPose让美女跳舞动画更真实

可控的人像动画是一项生成视频的技术,它使用参考图片和驱动视频来制作动态画面。传统方法通常依赖稀疏的控制信号(比如骨架姿态)来实现动作效果,但控制力有限。为了改进效果,最近有些方法引入了更多细节的条件(比如深度图)来确保动作的对齐。然而,这种严格的“细致指导”会带来问题—如果参考人物和驱动视频中的人物体型差异较大,生成的视频质量往往会变差。

为了解决这一问题,北京大学提出了一种新方法,叫 DisPose。它不需要额外的密集输入,而是从稀疏的骨架姿态中提取出更通用、更有效的控制信号。DisPose 将骨架姿态拆解为两部分:运动场引导关键点对应。类似但不相同的研究有AnimateAnyone、Champ、StableAnimator等等

01 技术原理

DisPose是一个即插即用的引导模块,用于解耦姿势引导,它仅通过骨架姿势图和参考图像提取强健的控制信号,而无需额外的密集输入。具体来说,DisPose将姿势引导解耦为运动场估计和关键点对应。首先,通过骨架姿势计算稀疏的运动场。然后,引入基于参考图像的密集运动场,通过在参考图像上进行条件运动传播,提供区域级别的运动信号。

IMG_256

为了增强外观一致性,提取与参考图像中的关键点对应的扩散特征。这些点特征通过计算运动轨迹中的多尺度点对应,传递到目标姿势。架构上,采用类似ControlNet的方式实现这些解耦的控制信号,并将其集成到现有的方法中。最后,运动场和点嵌入被注入到潜在的视频扩散模型中,从而实现准确的人物图像动画。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容