复旦&百度又一力作！可生成一小时高清4K视频，音频驱动视频生成开源项目Hallo2

你可能见过一些短视频，时间不超过几秒或者1分钟。但Hallo2能生成持续时间更长的视频，解决了过去动画在时间上的限制。为了让动画看起来更加自然，Hallo2使用了一种特殊的方法来处理图像，使得在较长时间内，人物的外观不会发生明显的变化，避免了常见的“画面漂移”问题。同时，Hallo2通过一些科技手段，成功地实现了4K的图像输出。这意味着，生成的视频不仅时间长，而且每一帧画面都非常清晰细腻，让观看者享受更好的视觉体验。Hallo2还允许用户通过文字来控制肖像的表情。这意味着，如果你想让一个角色笑或者皱眉，只需要在输入中描述一下，模型就能生成相应的动画。Hallo2作为音频驱动的肖像图像动画的方法，生成的动画具有连贯、一致、可修改并带有文本提示。

01 技术原理—

Hallo2方法展示了如何处理一张参考图像和一个持续几分钟的音频输入。还可以在不同时间点加入可选的文字提示，以调整和细化肖像的表情。最终生成的输出是一个高分辨率的4K视频，它与音频同步，并受这些可选表情提示的影响，确保视频在整个播放过程中保持连贯性。

Hallo2提出了两种提取输入潜在特征的方法。第一种方法直接使用扩散模型的潜在特征用于超分辨率模块，虽然简单，但需要对整个模块进行端到端的训练。第二种方法则通过扩散模型的解码器和一个低质量解码器处理潜在特征，仅需训练一个轻量级的时间对齐模块。考虑到超分辨率视频数据的稀疏性，第二种方法在有限训练条件下表现更佳。

生成长视频动画的两种常见方法。第一个是把多个小片段拼接起来，但这会限制面部和动作的变化，还可能出现模糊或扭曲。第二种方法是逐帧生成，但如果前面的帧出错，问题会累积到后面，影响质量。Hallo2选择了第二种方法，并通过创新的数据处理技术避免这些问题，保证角色看起来和参考图像一致，同时动作连贯。