Command Palette
Search for a command to run...

摘要
我们提出 LongLive,一种面向实时与交互式长视频生成的帧级自回归(AR)框架。长视频生成在效率与质量方面均面临挑战。扩散模型及扩散强迫(Diffusion-Forcing)模型虽能生成高质量视频,但受限于双向注意力机制,推理效率较低。而采用因果注意力的自回归模型虽支持键值缓存(KV caching)以实现更快的推理,但在长视频训练过程中因记忆瓶颈问题,往往导致生成质量下降。此外,除了静态提示驱动的生成方式外,交互能力(如流式输入提示)对于动态内容创作至关重要,使用户能够实时引导叙事发展。这一交互需求显著增加了技术复杂性,尤其是在提示切换过程中保持视觉一致性与语义连贯性方面。为应对上述挑战,LongLive 采用因果性、帧级的自回归架构,并引入三项关键技术:其一,KV 重缓存机制,通过利用新提示刷新缓存状态,实现平滑且一致的模式切换;其二,流式长序列微调(streaming long tuning),支持长视频训练,并实现训练与推理阶段的一致性(即“训练长、测试长”);其三,结合短窗口注意力与帧级注意力汇聚机制(简称帧汇聚,frame sink),在保持长距离时序一致性的同时,显著提升生成速度。凭借这些核心设计,LongLive 仅用 32 个 GPU 天,即可将一个 13 亿参数的短片段模型微调至生成长达数分钟的视频。在推理阶段,LongLive 在单张 NVIDIA H100 GPU 上可维持 20.7 FPS 的生成速率,在 VBench 基准测试中,无论是短视频还是长视频任务,均展现出优异性能。该框架支持在单张 H100 GPU 上生成长达 240 秒的视频,并进一步支持 INT8 量化推理,仅带来极小的质量损失。