妥妥的AI带货利器！开源方法AnchorCrafter带来新销售模式

AI自动生成主播风格的产品推广视频，为在线电商、广告和消费者互动提供了巨大的商机。然而，尽管人体姿态引导视频生成技术已有很大进展，这个任务依然充满挑战。如何将人类与物体的互动（HOI）融入姿态引导的视频生成中，成为了关键难题。为了解决这个问题，中国科学院计算技术研究所与美团提出了AnchorCrafter，一个基于扩散技术的创新系统，它可以生成包含目标人物和定制物体的2D视频，且能够高保真地呈现图像效果和可控的互动场景。

具体来说，AnchorCrafter提出了两个关键创新：一是“HOI外观感知”，它能够从不同角度识别物体外观，同时将物体和人物的外观分开处理；二是“HOI动作注入”，它通过克服物体轨迹控制和遮挡管理的挑战，使得复杂的人物与物体互动成为可能。此外，还提出了“HOI区域重加权损失”这一训练目标，来进一步提高物体细节的学习效果。

01 技术原理

—

AnchorCrafter的训练流程（下图）：基于视频扩散模型，AnchorCrafter通过HOI-外观感知将人物和多个视角的物体信息注入到视频中。动作通过HOI-动作注入来控制，训练目标在HOI区域进行了重新加权。

HOI-外观感知（下图）：通过多视角物体特征融合提取目标物体的特征fO，并将其与人物参考特征fH结合，使用人-物双适配器来实现更好的特征分离效果。