解决卡顿问题：生成视频新方法，图像生成模型用于关键帧插值

华盛顿大学和谷歌DeepMind 开发了一种新开源方法GI-KI（生成中间帧插值），可以在两张给定的关键画面之间生成流畅连续的视频。他们改进了一个预先训练过的AI模型，原本这个模型是用来从一张图片生成视频的。通过小范围的调整，让这个模型可以生成反向播放的视频。接着，同时用两个模型：一个负责向前生成视频，一个负责向后生成视频来进行双向处理，并把两者的结果合并在一起。GI-KI 方法通过调整预训练的图像转视频扩散模型，以一对关键帧为输入，生成一个动作连贯的中间过渡视频。当然该方法有一些局限，主要是因为稳定视频扩散模型（SVD）生成的运动质量有点问题。SVD模型通常根据输入的图像有很强的固定运动倾向，只会生成某些特定的运动，这样的话，它可能无法生成两个关键帧之间真正需要的运动，使得做出自然的过渡视频变得不太容易。

解决卡顿问题，生成视频新方法！将图像生成模型用于关键帧插值

01 技术原理—1. 前向运动预测：首先，用第一个输入图像（或者视频的第一帧）加上噪声信息，输入预训练好的3D UNet模型，生成噪声预测和时间相关的注意力图。2. 反向运动预测：然后，把噪声数据在时间线上反转，用第二个输入图像（或者视频的最后一帧）作为条件，再加上旋转了180度的注意力图，通过3D UNet模型预测反向运动。3. 融合和更新：最后，把反向运动的噪声再次反转，跟前向运动的噪声融合，生成一个连贯的运动路径。需要注意的是，在时间相关的注意力图中，只有部分矩阵经过了微调。同时进行消融研究，测试了生成过渡运动一致性的其他方法：

GI-KI 的方案（不使用RA）：完整流程中，虽然微调了时间注意力层的所有参数，但没有使用旋转180度的时间自注意力图作为额外输入。
GI-KI 的方案（不使用FT）：完整流程中，没有对反向运动进行微调。

02 实际示例主要将GI-KI 的方法和当前顶尖的大动作帧插值技术FILM以及同样使用SVD技术的TRF进行对比。同时，还对比了最近的DynamiCrafter的结果，它是一个大型图像转视频模型，具有关键帧插值功能，专门训练以处理两个结束帧。GI-KI方法则侧重于如何用更少的训练视频和计算资源，轻量化地调整预训练的图像转视频模型。