
摘要
近期在视频生成模型方面的进展已经使得从文本提示生成高质量短视成为可能。然而,将这些模型扩展到更长的视频仍然是一个重大挑战,主要原因是时间连贯性和视觉保真度的下降。我们的初步观察表明,直接将短视频生成模型应用于更长的序列会导致明显的质量退化。进一步分析发现了一个系统性的趋势,即随着视频长度的增加,高频成分变得越来越扭曲,我们称这一问题为高频失真(High-Frequency Distortion)。为了解决这一问题,我们提出了一种无需训练的框架——FreeLong,该框架旨在在去噪过程中平衡长视频特征的频率分布。FreeLong通过融合全局低频特征(捕捉整个视频的整体语义)和局部高频特征(从短时间窗口中提取以保留细节)来实现这一点。在此基础上,FreeLong++ 将FreeLong的双分支设计扩展为多分支架构,每个注意力分支在不同的时间尺度上运行。通过从全局到局部排列多个窗口大小,FreeLong++ 实现了从低频到高频的多带频率融合,确保了较长视频序列的时间连贯性和细粒度运动动态。无需任何额外训练,FreeLong++ 可以插入现有的视频生成模型(如Wan2.1和LTX-Video),从而显著提高长时间视频的时间连贯性和视觉保真度。我们展示了我们的方法在更长视频生成任务中(例如4倍和8倍于原始长度)优于先前的方法。此外,它还支持连贯的多提示视频生成,并能实现平滑的场景过渡以及使用长深度或姿态序列进行可控的视频生成。