
摘要
我们提出了 UniVerse-1,这是一个统一的、类似 Veo-3 的模型,能够同时生成协调一致的音视频内容。为提升训练效率,我们未采用从零开始训练的方式,而是引入了“专家拼接”(Stitching of Experts, SoE)技术。该方法深度融合了预训练视频生成与音乐生成专家模型的对应模块,从而充分挖掘并利用其基础能力。为确保环境音与语音在时间上与视频内容精确对齐,并获得准确的标注,我们设计了一套在线标注流水线,可在训练过程中实时处理所需数据并生成标签。这一策略有效避免了传统基于文本标注因时间错位而导致的性能下降问题。通过上述技术的协同作用,经过约7600小时音视频数据的微调后,我们的模型在环境音生成方面展现出优异的音视频协同效果,在语音生成方面也实现了强时间对齐。为系统评估所提出方法的有效性,我们构建了 Verse-Bench——一个全新的基准数据集。为推动音视频生成领域的研究进展,并缩小与 Veo3 等先进模型之间的性能差距,我们已将模型及代码开源。我们期望这一贡献能惠及更广泛的科研社区。项目主页:此链接。