探索全新开源技术！DisPose让美女跳舞动画更真实

可控的人像动画是一项生成视频的技术，它使用参考图片和驱动视频来制作动态画面。传统方法通常依赖稀疏的控制信号（比如骨架姿态）来实现动作效果，但控制力有限。为了改进效果，最近有些方法引入了更多细节的条件（比如深度图）来确保动作的对齐。然而，这种严格的“细致指导”会带来问题—如果参考人物和驱动视频中的人物体型差异较大，生成的视频质量往往会变差。

为了解决这一问题，北京大学提出了一种新方法，叫 DisPose。它不需要额外的密集输入，而是从稀疏的骨架姿态中提取出更通用、更有效的控制信号。DisPose 将骨架姿态拆解为两部分：运动场引导和关键点对应。类似但不相同的研究有AnimateAnyone、Champ、StableAnimator等等

01 技术原理

—

DisPose是一个即插即用的引导模块，用于解耦姿势引导，它仅通过骨架姿势图和参考图像提取强健的控制信号，而无需额外的密集输入。具体来说，DisPose将姿势引导解耦为运动场估计和关键点对应。首先，通过骨架姿势计算稀疏的运动场。然后，引入基于参考图像的密集运动场，通过在参考图像上进行条件运动传播，提供区域级别的运动信号。

为了增强外观一致性，提取与参考图像中的关键点对应的扩散特征。这些点特征通过计算运动轨迹中的多尺度点对应，传递到目标姿势。架构上，采用类似ControlNet的方式实现这些解耦的控制信号，并将其集成到现有的方法中。最后，运动场和点嵌入被注入到潜在的视频扩散模型中，从而实现准确的人物图像动画。

THE END