HyperAI超神经
Back to Headlines

径向注意力:高效生成长视频,成本降低4.4倍

a day ago

视频扩散模型在生成高质量、连贯视频方面取得了显著进步,但由于视频处理中的额外时间维度,计算需求大幅增加,尤其是在处理长视频时。自注意力机制的计算复杂度随序列长度呈二次增长,这使得训练和运行这些模型变得极为困难。此前的一些方法,如Sparse VideoGen,通过分类注意力头来加速推理,但在训练过程中难以保持准确性和泛化能力。其他方法则尝试用线性替代方案取代softmax注意力,但通常需要进行大量的架构调整,效果并不理想。 视频合成中的注意力机制发展 早期的视频模型主要是在二维架构基础上加入时间成分,而新方法如DiT和Latte通过高级注意力机制改进了空间-时间建模。尽管3D密集注意力机制在性能上达到了顶尖水平,但其计算成本随着视频长度急剧上升,导致生成长视频的成本高昂。为了缓解这一问题,研究人员探索了时间步蒸馏、量化和稀疏注意力等技术。虽然线性或层次注意力在效率上有一定提升,但在实践中往往难以维持细节或有效扩展。 时空能量衰减与径向注意力机制 来自MIT、NVIDIA、普林斯顿大学、加州大学伯克利分校、斯坦福大学和First Intelligence的研究团队发现了一个现象:在视频扩散模型中,注意力分数随着时空距离的增加而衰减,类似于物理信号的自然衰减,他们将其称为“时空能量衰减”。基于这一发现,研究团队提出了一种新的稀疏注意力机制——径向注意力(Radial Attention)。径向注意力具有O(n log n)的复杂度,它使用一个静态注意力掩码,使每个标记主要关注其附近的标记,并随着时间逐渐缩小注意力窗口。这样可以将预训练模型的视频生成长度提升四倍,同时降低训练成本4.4倍,推理时间减少3.7倍,且不影响视频质量。 径向注意力机制的具体原理 径向注意力的核心思想是,视频模型中的注意力分数随着时空距离的增加而减弱。因此,不是平等地关注所有标记,径向注意力有选择地减少了计算,特别是在注意力较弱的区域。这种机制引入了一个稀疏注意力掩码,该掩码在空间和时间上向外指数衰减,仅保留最相关的信息交互。此外,通过使用LoRA适配器进行少量微调,预训练模型可以高效地生成更长的视频,而不会牺牲生成质量。 模型评估与性能表现 研究团队在三个领先的文本到视频扩散模型上测试了径向注意力机制:Mochi 1、HunyuanVideo和Wan2.1。实验结果表明,与现有的稀疏注意力基线方法(如Sparse VideoGen和PowerAttention)相比,径向注意力不仅在感知质量上表现出色,还实现了显著的计算效率提升。具体而言,它可以最多将推理速度提高3.7倍,训练成本降低4.4倍,支持长达4倍的视频生成,并且能够兼容现有的LoRA适配器。值得注意的是,在某些情况下,使用径向注意力进行LoRA微调的表现甚至超过了全量微调,这进一步证明了该机制在高效生成高质量长视频方面的优势。 结论:高效且可扩展的长视频生成 总体而言,径向注意力是一种专门为视频扩散模型设计的稀疏注意力机制,旨在高效处理长视频生成。该机制通过模拟注意力分数随时空距离增加而自然衰减的现象,使用固定的注意力模式和随时间逐渐缩小的注意力窗口,显著提升了生成效率。通过轻量级的LoRA微调,径向注意力大幅降低了训练和推理的成本,同时保持了视频的质量。这一创新为长视频的高质量生成提供了新的解决方案,有望在未来的视频生成应用中发挥重要作用。 业内人士普遍认为,径向注意力机制是一个突破性的进展,它解决了现有视频扩散模型在处理长视频时的高计算成本问题,为大规模视频生成铺平了道路。参与研究的机构包括MIT、NVIDIA等在计算机视觉领域享有盛誉的学术和工业机构,进一步提升了这一成果的可信度和实际应用价值。

Related Links