HyperAI超神经

在视频生成的下一帧预测模型中打包输入帧上下文

Lvmin Zhang, Maneesh Agrawala
发布日期: 4/18/2025
在视频生成的下一帧预测模型中打包输入帧上下文
摘要

我们提出了一种神经网络结构,FramePack,用于训练视频生成的下一帧(或下一帧段)预测模型。FramePack 压缩输入帧,使得变换器的上下文长度在视频长度变化时保持固定。因此,我们能够使用与图像扩散相似的计算瓶颈来处理大量帧的视频扩散。这还使得训练视频的批量大小显著增加(批量大小与图像扩散训练相当)。此外,我们提出了一种抗漂移采样方法,该方法以倒序时间顺序生成帧,并在早期建立终点以避免暴露偏差(迭代过程中累积的误差)。最后,我们展示了现有的视频扩散模型可以通过 FramePack 进行微调,并且由于下一帧预测支持更平衡的扩散调度器和较少的极端流转变换时间步长,其视觉质量可能会得到提升。