Command Palette

Search for a command to run...

13 天前

Lumine:在3D开放世界中构建通用Agent的开源方案

Lumine:在3D开放世界中构建通用Agent的开源方案

摘要

我们提出 Lumine,这是首个开源的通用智能体开发方案,能够实现在复杂三维开放世界环境中实时执行长达数小时的复杂任务。Lumine 采用类人类交互范式,通过视觉-语言模型,以端到端的方式统一感知、推理与行动。它以每秒 5 帧的频率处理原始像素输入,生成每秒 30 帧的精确键盘鼠标操作,并仅在必要时动态调用推理模块。Lumine 在《原神》(Genshin Impact)中进行训练,能够以与人类相当的效率完成长达五小时的蒙德主线剧情,同时可理解自然语言指令,在三维开放世界探索与二维图形用户界面(GUI)操作中,完成包括收集、战斗、解谜及与非玩家角色(NPC)交互在内的多样化任务。除在训练领域内的出色表现外,Lumine 还展现出强大的零样本跨游戏泛化能力:未经任何微调,即可完成《鸣潮》(Wuthering Waves)中长达 100 分钟的任务,以及《崩坏:星穹铁道》(Honkai: Star Rail)第一章节全部五小时的完整剧情。这些令人振奋的结果表明,Lumine 在不同世界设定与交互机制下均具备高效适应能力,标志着迈向开放环境中通用智能体的重要一步。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供