蚂蚁集团开源流畅动画生成框架ANIMATE-X

“角色图像动画”技术可以从一张参考图像和一组目标动作序列生成高质量的视频。近年来，这项技术取得了显著进展。然而，大多数现有方法只适用于人类角色，往往很难泛化到像游戏和娱乐行业常用的拟人化角色上。经过深入分析，这种限制主要是因为这些方法对动作的建模不够完善，无法很好地理解驱动视频中的运动模式，而是将动作序列僵硬地套用在目标角色上。

为了解决这个问题，蚂蚁集团提出了一种通用动画框架—Animate-X，它基于LDM（潜在扩散模型），可以处理各种角色类型（统称为“X”），包括拟人化角色。为了加强对动作的理解，引入了一个“动作指示器”（Pose Indicator），它可以通过隐式和显式的方式捕捉驱动视频中的运动模式。

01 技术原理

—

Animate-X设计了两个关键模块：隐式姿态指示器（IPI）和显式姿态指示器（EPI）。它们分别生成动作特征和姿态特征。接着，把动作特征和噪声输入在通道维度上拼接起来，再把姿态特征在时间维度上拼接进去，形成一个综合输入送入扩散模型中进行逐步去噪。

首先，从一张参考图像中提取特征，包括通过 CLIP 提取的图像特征和通过 VAE 提取的潜在特征。此外，提出了两种特征生成方式：隐式姿态指示器（IPI）和显式姿态指示器（EPI），分别生成运动特征和姿态特征。

接着，把和带噪声的输入按通道维度拼接在一起，并在时间维度上继续与拼接。这些拼接后的数据作为扩散模型的输入，逐步去除噪声。在这个过程中，和分别提供了参考图像的外观信息和运动信息。最后，通过 VAE 解码器将生成的潜在表示转换为动画视频。

02 对比与演示效果

—

基于GAN的LIA泛化能力较差，图像的角色身份发生了变化，而且生成的动作与参考姿态不够准确。虽然ControlNeXt在一定程度上保持了角色身份和动作转移的一致性，但生成的结果仍显得不够自然。