HyperAI超神经

时序上下文微调以实现视频扩散模型的多功能控制

Kinam Kim, Junha Hyung, Jaegul Choo
发布日期: 6/3/2025
时序上下文微调以实现视频扩散模型的多功能控制
摘要

近期在文本到视频扩散模型领域的进展已经实现了高质量的视频合成,但可控生成仍然是一个挑战,尤其是在数据和计算资源有限的情况下。现有的条件生成微调方法通常依赖于外部编码器或架构修改,这需要大量的数据集,并且通常仅限于空间对齐的条件,限制了灵活性和可扩展性。在这项工作中,我们引入了一种高效且多用途的方法——时序上下文微调(TIC-FT),用于将预训练的视频扩散模型适应于多种条件生成任务。我们的核心思想是在时间轴上连接条件帧和目标帧,并插入具有逐渐增加噪声水平的中间缓冲帧。这些缓冲帧能够实现平滑过渡,使微调过程与预训练模型的时间动态保持一致。TIC-FT 不需要任何架构上的改动,并且只需 10-30 个训练样本即可达到良好的性能。我们使用大规模基础模型如 CogVideoX-5B 和 Wan-14B,在包括图像到视频和视频到视频生成在内的多种任务中验证了该方法的有效性。广泛的实验表明,TIC-FT 在条件保真度和视觉质量方面均优于现有基线方法,同时在训练和推理过程中保持了高效率。更多结果请访问 https://kinam0252.github.io/TIC-FT/