HyperAI超神经
17 days ago

Lumos-1:从统一模型视角探讨自回归视频生成

Hangjie Yuan, Weihua Chen, Jun Cen, Hu Yu, Jingyun Liang, Shuning Chang, Zhihui Lin, Tao Feng, Pengwei Liu, Jiazheng Xing, Hao Luo, Jiasheng Tang, Fan Wang, Yi Yang
Lumos-1:从统一模型视角探讨自回归视频生成
摘要

自回归大型语言模型(LLMs)已经统一了广泛的语言任务,激发了初步的自回归视频生成研究。现有的自回归视频生成器要么偏离了标准的LLM架构,要么依赖于庞大的外部文本编码器,或者由于逐个解码下一个标记而产生无法接受的延迟。在本文中,我们介绍了Lumos-1,这是一种保留了LLM架构并进行了最小修改的自回归视频生成器。为了在LLM中引入时空相关性,我们发现结合3D RoPE的有效性,并诊断其不平衡的频率谱范围。因此,我们提出了MM-RoPE,一种保留原始文本RoPE的同时提供全面频率谱和缩放3D位置的RoPE方案,用于建模多模态时空数据。此外,Lumos-1采用了一种遵循帧内双向性和帧间时间因果性的标记依赖策略。基于这一依赖策略,我们发现了由空间信息冗余引起的帧级损失不平衡问题,并通过提出自回归离散扩散强制(AR-DF)来解决这一问题。AR-DF在训练过程中引入时间管掩码,并采用兼容的推理时掩码策略以避免质量下降。通过使用内存高效的训练技术,我们在仅48个GPU上预训练了Lumos-1,在GenEval、VBench-I2V上的COSMOS-Video2World以及VBench-T2V上的OpenSoraPlan等基准测试中取得了与EMU3相当的性能。代码和模型可在https://github.com/alibaba-damo-academy/Lumos获取。