可控的人像动画是一项生成视频的技术,它使用参考图片和驱动视频来制作动态画面。传统方法通常依赖稀疏的控制信号(比如骨架姿态)来实现动作效果,但控制力有限。为了改进效果,最近有些方法引入了更多细节的条件(比如深度图)来确保动作的对齐。然而,这种严格的“细致指导”会带来问题—如果参考人物和驱动视频中的人物体型差异较大,生成的视频质量往往会变差。
为了解决这一问题,北京大学提出了一种新方法,叫 DisPose。它不需要额外的密集输入,而是从稀疏的骨架姿态中提取出更通用、更有效的控制信号。DisPose 将骨架姿态拆解为两部分:运动场引导和关键点对应。类似但不相同的研究有AnimateAnyone、Champ、StableAnimator等等
01 技术原理
—
DisPose是一个即插即用的引导模块,用于解耦姿势引导,它仅通过骨架姿势图和参考图像提取强健的控制信号,而无需额外的密集输入。具体来说,DisPose将姿势引导解耦为运动场估计和关键点对应。首先,通过骨架姿势计算稀疏的运动场。然后,引入基于参考图像的密集运动场,通过在参考图像上进行条件运动传播,提供区域级别的运动信号。
为了增强外观一致性,提取与参考图像中的关键点对应的扩散特征。这些点特征通过计算运动轨迹中的多尺度点对应,传递到目标姿势。架构上,采用类似ControlNet的方式实现这些解耦的控制信号,并将其集成到现有的方法中。最后,运动场和点嵌入被注入到潜在的视频扩散模型中,从而实现准确的人物图像动画。
© 版权声明
THE END
暂无评论内容