DeepMind发布新型可学习AI智能体,能在可扩展世界模型中自主完成多样化任务
谷歌DeepMind推出新一代AI智能体Dreamer 4,首次实现仅通过离线视频数据,在虚拟世界模型中完成复杂任务,而无需在真实环境中试错。该系统在不实际运行《我的世界》(Minecraft)的情况下,成功获取了钻石,标志着AI训练方式的重大突破。 Dreamer 4的核心在于其强大的“世界模型”——一个能够模拟复杂物理交互的内部虚拟环境。它基于大规模Transformer架构,利用少量人类玩家录制的游戏视频进行训练,学习鼠标和键盘操作如何影响游戏世界,包括砍树、制作工具、采矿、冶炼等长达两万余步的长周期任务。通过一种名为“快捷强制”(shortcut forcing)的新训练机制,模型不仅能高效预测未来状态,还实现了比传统视频生成模型快25倍以上的推理速度,可在单块GPU上实时运行。 与现有视频生成模型(如Veo、Sora)不同,Dreamer 4的世界模型具备交互性,可支持AI在想象中反复试错、优化策略,从而实现真正的强化学习。研究人员强调,这种“纯离线学习”模式对机器人训练尤为重要——现实中机器人一旦损坏便难以修复,而通过虚拟模拟训练则安全、高效且成本低。 实验表明,Dreamer 4不仅能准确模拟方块放置、物品合成、门与箱子使用等机制,还能泛化到未见过的新场景中。更令人振奋的是,它仅需数百小时的动作数据即可掌握通用操作逻辑,而大部分知识来自纯视频信息。这意味着未来AI可从互联网上海量的人类行为视频中学习物理常识,极大降低机器人训练的数据门槛。 DeepMind团队表示,下一步将为模型引入长期记忆机制,确保长时间模拟的一致性,并探索整合语言理解能力,使AI能与人类协作完成任务。长远来看,Dreamer 4的技术路径有望推动智能机器人在家庭、工厂等真实场景中可靠执行复杂操作,为通用人工智能的发展铺平道路。