HyperAI超神经
Back to Headlines

阿里巴巴推出Lumos-1:高效统一的自回归视频生成模型

8 days ago

阿里巴巴达摩院、湖畔实验室和浙江大学的研究团队近日发布了一项重要研究成果——Lumos-1,这是一种统一的自回归视频生成模型。该模型利用多模态旋转位置编码(MM-RoPE)和自回归离散扩散强制(AR-DF)技术,有效地解决了视频生成中的时空依赖性建模问题,显著提升了视频生成的质量和效率。 自回归视频生成是一个快速发展的研究领域,其核心在于通过学习视频帧的空间排列和时间动态来逐帧合成视频内容。与传统视频创作方法依赖预构建的帧或手工设计的过渡不同,自回归模型能够基于前面的令牌动态生成内容,这一过程类似于大语言模型预测下一个词。这样的方法有望在相同的框架下统合视频、图像和文本的生成。 然而,现有的自回归视频生成模型面临着诸多挑战。首先是难以准确捕捉和建模视频中的时空依赖性。视频数据具有丰富的时间和空间结构,这使得模型在预测连贯的未来帧时面临困难。其次是传统的训练方法如随机遮罩往往会导致帧间学习信号不均衡,影响模型性能。还有些模型因为引入了外部预训练的文本编码器而变得复杂且不一致,或者在生成过程中带来显著延迟。 为了应对这些挑战,阿里巴巴的研究团队提出了Lumos-1。该模型保留了大语言模型的基本架构,不需要外部编码器,仅对原始设计进行了少量修改。Lumos-1 使用了 MM-RoPE 技术,扩展了现有的旋转位置编码(RoPE)方法,以便更好地平衡时间和空间维度的频率谱。这种方法重新分配了频率聚焦,使得时间、高度和宽度维度都能获得平衡的表示。 此外,Lumos-1 还引入了 AR-DF 技术,使用时间管遮罩(temporal tube masking)的方法,在训练过程中确保模型不会过分依赖未被遮罩的空间信息,从而实现均匀的学习效果。这种推断策略在生成时也能保持高质量输出,避免因信息不足而导致的画质下降。Lumos-1 在 6000 万张图片和 1000 万个视频上从零开始训练,仅使用了 48 块 GPU,显示出较高的内存效率。 实验结果显示,Lumos-1 的表现与领域内顶尖模型相当。它在 GenEval 基准测试中达到了与 EMU3 相同的水平,在 VBench-I2V 测试中与 COSMOS-Video2World 表现相当,在 VBench-T2V 基准测试中也接近了 OpenSoraPlan 的输出质量。这些结果表明,Lumos-1 虽然采用了轻量级的训练方法,但并没有牺牲竞争力。该模型支持从文本到视频、从图像到视频以及从文本到图像的生成,展示了强大的跨模态泛化能力。 总体来看,这项研究不仅解决了自回归视频生成中的核心难题,还展示了如何在高效的框架下实现模型的高质量生成。Lumos-1 成功地结合了先进的架构和创新的训练方法,为未来的可扩展、高质量视频生成模型铺平了道路,并开创了多模态研究的新方向。 业内人士评价认为,Lumos-1 的推出是自回归视频生成领域的重要突破。它不仅提高了视频生成的质量和效率,还简化了模型结构,使其更加易于理解和应用。阿里巴巴作为全球领先的人工智能技术研究机构之一,此次发布的 Lumos-1 再一次证明了其在前沿科技领域的强大实力和创新能力。

Related Links