Command Palette
Search for a command to run...
NitroGen:一个面向通用游戏智能体的开源基础模型
NitroGen:一个面向通用游戏智能体的开源基础模型
摘要
我们推出了 NitroGen,这是一种面向通用游戏代理的视觉-动作基础模型,基于涵盖 1,000 多款游戏的 40,000 小时游戏录像视频进行训练。该模型整合了三大关键要素:1)通过自动从公开可用的游戏录像中提取玩家操作而构建的大规模互联网级视频-动作数据集;2)用于衡量跨游戏泛化能力的多游戏基准测试环境;3)采用大规模行为克隆(Behavior Cloning)训练的 unified 视觉-动作模型。NitroGen 在多个领域展现出卓越的能力,包括 3D 动作游戏中的战斗遭遇、2D 平台游戏中的高精度操控,以及在程序化生成世界中的探索。该模型能有效迁移至未见过的游戏,与从头训练的模型相比,任务成功率最高提升了 52%。为推动通用具身代理(Generalist Embodied Agents)的研究,我们公开了数据集、评估套件及模型权重。
一句话总结
NitroGen 是一个开放式的视觉 - 动作基础模型,专为通用游戏 agents 设计,通过在超过 1,000 款游戏的 40,000 小时游戏视频上进行大规模行为克隆训练而成。该模型在未见过的游戏中,相比从头训练的模型,任务成功率最高可实现 52% 的相对提升,并伴随数据集、评估套件和模型权重的发布,以推动通用具身 agents 研究。
核心贡献
- 通过利用输入覆盖软件从公开可用的游戏视频中自动提取玩家动作,构建了互联网规模的视频 - 动作数据集。该资源使得无需依赖昂贵的数据收集或专用模拟器即可跨数百款游戏进行训练。
- NitroGen 是一个统一的视觉 - 动作基础模型,基于超过 1,000 款游戏的 40,000 小时游戏进行大规模行为克隆训练。该方法摒弃语言条件,专注于为通用游戏 agents 提供可扩展的视觉 - 动作映射。
- 多游戏基准环境用于衡量跨游戏泛化能力,其中该模型相比从头训练的模型,任务成功率最高实现 52% 的相对提升。数据集、评估套件和模型权重已发布,以推动通用具身 agents 研究。
引言
构建具备通用能力的具身 agents 是人工智能的主要目标之一,但缺乏大型、多样且带标签的动作数据集阻碍了进展。现有方法通常依赖专用模拟器或手工制作的 API,无法扩展到任意游戏,而行为克隆受限于收集人类演示的高成本。为此,NitroGen 被引入,这是一个基于超过 1,000 款游戏的 40,000 小时公开可用游戏视频训练的视觉 - 动作基础模型。利用自动化流程从互联网视频的输入覆盖层中提取帧级动作,消除了对昂贵手动标注的需求。该统一模型展示了强大的跨游戏泛化能力,相比从头训练的模型,任务成功率最高提升 52%。
数据集
-
数据集组成与来源 作者利用带有输入覆盖软件的公开可用游戏视频构建了 NitroGen。这些覆盖层可视化了玩家动作,例如游戏手柄按钮,使得无需直接访问游戏输入即可从互联网规模数据中恢复标签。
-
关键子集详情 原始收集包含来自 818 位创作者的 38,739 个片段,共计 71,000 小时视频。过滤后,最终数据集包含 40,000 小时,涵盖超过 1,000 款独特游戏。Action-RPGs 占总时长的 34.9%,其次是平台跳跃和动作冒险游戏。评估套件涵盖 10 款游戏,包含 30 个任务,分为战斗、导航和游戏特定机制三类。
-
数据使用与训练策略 作者使用该数据进行大规模行为克隆预训练。片段经过过滤,仅保留至少 50% 时间步包含非零动作的块,以防止空动作过度预测。评估利用通用模拟器,用 Gymnasium API 封装商业游戏,将观测标准化为单 RGB 帧,动作标准化为 20 维向量。
-
处理与提取方法 动作提取采用三阶段流程,首先使用 SIFT 和 XFeat 进行模板匹配以定位覆盖层。微调的 SegFormer 模型从连续帧中解析控制器状态,输出 11x11 网格上的摇杆位置和二进制按钮状态。训练期间屏幕上的控制器被屏蔽,以防止模型利用,并使用 800 万合成帧训练标注模型。
方法
作者提出了 NitroGen,这是一个多游戏基础 agent,旨在基于视觉观测生成未来动作块。整个系统集成了通用模拟器、基础 agent 本身以及互联网规模视频 - 动作数据集。参见框架图。
为了实现在多样化游戏玩法上的训练,系统依赖于通过从在线视频提取控制器输入构建的大规模数据集。如下图所示,数据准备流程始于在输入视频帧上使用模板匹配进行游戏手柄定位。一旦定位,游戏手柄被裁剪,并通过摇杆分割和按钮分类提取特定动作。
NitroGen 架构采用流匹配来生成这些动作序列。模型采用扩散 Transformer (DiT) 主干,移除语言和状态编码器,专注于视觉条件。分辨率为 256×256 的 RGB 输入使用 SigLIP 2 视觉 Transformer 进行编码,每帧产生 256 个图像 tokens。含噪动作块首先由 MLP 编码为每个时间步一个动作 token。这些 tokens 经过多个 DiT 块处理,包含交替的自注意力层和交叉注意力层,其中交叉注意力层基于编码的帧 tokens 条件化动作生成。最后,动作 tokens 使用独立应用于时间维度的 MLP 解码为连续动作向量。
关于设计选择,模型生成基于单个上下文帧条件化的 16 动作块。与单动作生成相比,这种方法提高了时间一致性,并利用游戏的初始状态引出适当行为。
模型使用标准条件流匹配目标进行训练。给定真实动作块 a∈R16×24,观测 o∈R256×256,流匹配时间步 t∈[0,1],以及高斯噪声 ϵ∼N(0,I),含噪动作构建为: at=(1−t)⋅ϵ+t⋅a 条件速度场定义为: νcond(x,t,a,ϵ,o)=a−ϵ 模型通过最小化条件流匹配损失来训练以预测此速度场: LCFM(θ,ϕ)=Et,a,ϵ[∣∣πθ(at,ψϕ(o),t)−(a−ϵ)∣∣2] 其中 πθ 代表 DiT,ψϕ 代表图像编码器。训练期间,使用移位 beta 分布采样 t,优先考虑小时间步。
在推理时,模型初始化 a0∼N(0,I) 并使用欧拉积分迭代去噪 k=16 步: at+1/k=at+k1πθ(at,ψϕ(o),t) 训练使用 AdamW 优化器进行,权重衰减为 0.001,采用预热 - 稳定 - 衰减计划。训练期间维护模型权重的指数移动平均 (EMA),衰减为 0.9999,所有报告结果均利用这些 EMA 权重。
实验
评估采用基准数据集来验证动作提取准确性,并评估模型在多样化游戏中的性能以测试泛化能力。结果表明,系统实现了鲁棒的提取,并很好地适应未见过的场景,而在含噪互联网规模数据上预训练相比从头训练显著增强了下游微调。此外,对比测试确认同步推理不会负面影响游戏物理,验证了预测期间冻结机制的可靠性。