HyperAIHyperAI

Command Palette

Search for a command to run...

Yume-1.5:一种文本控制的交互式世界生成模型

Xiaofeng Mao Zhen Li Chuanhao Li Xiaojie Xu Kaining Ying Tong He Jiangmiao Pang Yu Qiao Kaipeng Zhang

Abstract

近期的研究表明,扩散模型在生成可交互、可探索的虚拟世界方面展现出巨大潜力。然而,现有大多数方法仍面临诸多关键挑战,包括参数量过大、推理步骤冗长以及历史上下文迅速膨胀等问题,严重制约了实时性能,并缺乏对文本指令的可控生成能力。为应对上述挑战,我们提出了一种名为 \method 的新型框架,能够仅通过单一图像或文本提示,生成逼真、可交互且连续的虚拟世界。该框架通过精心设计的架构,支持基于键盘操作的实时探索。其核心由三个组成部分构成:(1)一种融合统一上下文压缩与线性注意力机制的长视频生成框架;(2)基于双向注意力蒸馏与增强文本嵌入方案的实时流式加速策略;(3)一种支持文本控制的世界事件生成方法。相关代码已提供于补充材料中。

一句话总结

上海人工智能实验室、复旦大学与上海创新研究院的作者提出 Yume1.5,一种轻量级框架,通过持续键盘输入实现文本与图像控制的实时、持久、可探索虚拟世界生成,利用统一上下文压缩、双向注意力蒸馏和增强文本嵌入,克服了先前基于扩散方法在速度、内存和可控性方面的局限。

主要贡献

  • Yume1.5 引入了联合时序-空间-通道建模(TSCM),一种新颖的压缩框架,通过联合压缩历史帧在时序、空间和通道维度上,实现稳定、长上下文的视频生成,显著降低内存使用,并在上下文长度变化时保持一致的推理速度。

  • 该框架集成了双向注意力蒸馏策略与类自强制训练范式,利用 TSCM 替代 KV 缓存,减少误差累积,从而在保持视觉质量的同时加速推理,实现真正的实时、连续世界探索。

  • Yume1.5 通过混合数据集训练方法与架构设计,实现文本控制的动态世界事件生成,允许用户通过文本提示编辑和生成新事件——在重新标注的事件导向描述数据集上进行了验证——同时支持键盘驱动的跨图像与文本到世界生成模式的导航。

引言

作者利用视频扩散模型实现交互式、持久的虚拟世界生成——这对沉浸式娱乐、仿真和虚拟化身等应用至关重要,使用户能够实时探索动态环境。先前工作存在关键局限:泛化能力差,仅限于类游戏场景;扩散推理速度慢导致高延迟;缺乏基于文本的事件生成控制,通常仅依赖鼠标或键盘输入,表达能力有限。为克服这些问题,作者提出 Yume1.5,能够从单一图像或文本提示实现实时、自回归的无限视频世界生成。其主要贡献有三方面:(1)联合时序-空间-通道建模(TSCM),通过在时间、空间和通道维度上压缩历史帧,维持长上下文一致性,避免内存爆炸;(2)一种受自强制启发的加速方法,将采样步数从 50 降至 4,同时最小化误差累积;(3)通过混合数据集训练策略与架构设计实现文本控制的事件生成,支持通过自然语言驱动动态场景演化。

数据集

  • 数据集由三个主要部分组成:真实世界数据集、合成数据集和专用事件数据集,分别贡献于真实运动控制、通用视频质量与事件特异性生成的平衡表现。

  • 真实世界数据集源自 Sekai-Real-HQ,是 Sekai 数据集的高质量子集,包含具有详细相机运动轨迹和语义标签的长段行走视频。作者采用 [21] 中的方法将相机轨迹数据转换为离散的键盘与鼠标控制信号,映射为相机运动动作词汇(如 →, ↑, ↘)和类人相机运动(如 W, A, W+A)。此外,数据集进行了重新标注:原始场景描述保留用于文本到视频(T2V)训练,而 InternVL3-78B 生成新的事件导向描述用于图像到视频(I2V)训练,以提升事件驱动生成能力。

  • 合成数据集基于 Openvid 构建,通过基于相似性的去重与随机采样选取 80,000 个多样化描述。使用 Wan 2.1 14B 合成 80,000 个 720p 分辨率的视频。通过 VBench 评估质量,保留前 50,000 个视频以防止过拟合并保持通用视频生成能力,主要用于 T2V 训练。

  • 事件数据集包含 10,000 张第一人称图像,配以用户生成的描述,涵盖四个类别:城市日常生活、科幻、奇幻与天气现象。这些数据用于使用 Wan 2.2 14B-I2V 合成 10,000 个图像到视频序列。经人工筛选后,选出 4,000 个高保真视频,以增强复杂事件驱动场景中的语义对齐,仅用于 T2V 训练。

  • 模型使用这些数据集的混合进行训练:真实世界与事件数据集用于 T2V 与 I2V 任务,合成数据集支持 T2V 以保持泛化能力。训练采用分解式事件与动作描述管道,结合自适应历史 token 降采样与基于块的自回归推理,实现高效的内存管理。

方法

作者基于扩散框架生成交互式与可探索世界,以 DiT(扩散 Transformer)为骨干网络。整体架构支持文本到视频与图像到视频生成,并采用统一的条件输入方式。对于文本到视频,模型输入为文本嵌入 ccc 和噪声张量 zRC×ft×h×wz \in \mathbb{R}^{C \times f_t \times h \times w}zRC×ft×h×w。对于图像到视频,将条件图像或视频 zcz_czc 零填充至与 zzz 相同维度,并使用二值掩码 McM_cMc 标识保留区域。条件输入通过 Mczc+(1Mc)zM_c \cdot z_c + (1 - M_c) \cdot zMczc+(1Mc)z 与噪声融合,再输入 DiT 骨干网络。文本编码策略区别于先前工作:将标题分解为事件描述与动作描述,分别由 T5 编码器处理后拼接。该设计允许高效预计算动作描述,降低推理时的计算开销。模型使用修正流损失(Rectified Flow loss)进行训练。

该框架引入一种长视频生成方法,以应对大上下文与慢推理的挑战。通过时序-空间与通道压缩相结合实现。对于时序-空间压缩,历史帧 zcz_czc 采用多速率 Patchify 方案进行下采样。压缩率根据帧与当前预测的时间距离而变化:t1t-1t1t2t-2t2 的帧下采样率为 (1, 2, 2),t3t-3t3t6t-6t6 的帧为 (1, 4, 4),依此类推,初始帧同样使用 (1, 2, 2)。该过程通过插值 Patchify 权重实现。压缩表示 z^c\hat{z}_cz^c 与预测帧 z^d\hat{z}_dz^d(采用固定 (1, 2, 2) 下采样率处理)拼接后输入 DiT 块。对于通道压缩,历史帧 zcz_czc 经过压缩率为 (8, 4, 4) 的 Patchify,通道数缩减至 96,得到 zlinearz_{\text{linear}}zlinear。该压缩表示输入 DiT 块。视频 token zlz^lzl 经交叉注意力层后,通过全连接层进行通道压缩。预测帧 zplz_p^lzplzlinearz_{\text{linear}}zlinear 拼接,组合 token zfusz_{\text{fus}}zfus 通过线性注意力层融合生成 zfuslz_{\text{fus}}^lzfusl。该输出再经另一全连接层恢复通道维度,并与 zlz_lzl 元素相加完成特征融合。

为加速实时推理,作者采用双向注意力蒸馏策略。该方法通过最小化真实与虚假数据分布之间的期望 KL 散度,将多步扩散模型转化为少步生成器。过程包含真实模型(教师)与虚假模型(学生)。生成器 GθG_\thetaGθ 从自身分布中采样先前帧,并用作上下文生成新预测帧,形成干净视频序列 z0z_0z0。关键创新在于,虚假模型通过分布匹配梯度优化,使其轨迹与真实模型一致,使用模型预测数据而非真实数据作为条件。该方法缓解了训练-推理差异与长视频中的误差累积。生成器初始化使用在混合数据集上通过交替训练策略训练的基座模型权重。最终模型能够从单一图像或文本提示生成逼真、交互式且连续的世界,支持键盘驱动探索。

实验

  • 在 Wan2.2-5B 上进行基座模型训练,分辨率为 704×1280,帧率 16 FPS,批量大小 40,Adam 优化器(学习率 1e-5),在 A100 GPU 上训练 10,000 步;随后在相同设置下进行 600 步的自强制训练(TSCM)。
  • 在 Yume-Bench 上评估,分辨率为 544×960,帧率 16 FPS,96 帧,4 步推理;使用六项指标,包括指令遵循、主体一致性、背景一致性、运动平滑性、美学质量与成像质量。
  • Yume1.5 在图像到视频生成中取得 0.836 的指令遵循得分,显著优于 Wan-2.1 与 MatrixGame,后者表现出有限的真实世界可控性。
  • 在长视频生成中,采用自强制与 TSCM 的模型在最终视频片段中保持稳定的美学(0.523)与成像质量(0.601)得分,优于基线(美学:0.442,成像质量:0.542)。
  • TSCM 提升了指令遵循能力,同时稳定了推理时间;在超过 8 个视频块时,每步推理时间保持恒定,优于全上下文输入与空间压缩方法。
  • Yume1.5 在单个 A100 GPU 上以 540p 分辨率生成 12 fps 的视频。
  • 局限性包括运动方向上的伪影(如倒退行驶的车辆)以及高密度场景中性能下降,归因于 5B 模型规模;未来拟采用 MoE 架构作为解决方案。

结果表明,Yume1.5 在多个指标上优于 Wan-2.1 与 MatrixGame,取得最高指令遵循得分 0.836,并显著提升美学与成像质量。模型还展现出最快的推理速度,仅用 8 秒完成生成,同时在主体、背景与运动平滑性方面保持强一致性。

结果表明,TSCM 模型在多项指标上优于空间压缩模型。具体而言,TSCM 在指令遵循上得分为 0.836,背景一致性为 0.945,运动平滑性为 0.985,在所有评估类别中均优于空间压缩模型。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供