HyperAI超神经

谷歌DeepMind于11月13日发布新一代通用AI智能体SIMA 2（Scalable Instructable Multiworld Agent），标志着其在实现通用人工智能（AGI）道路上迈出关键一步。SIMA 2融合了谷歌最新版Gemini 2.5 flash-lite大语言模型，不仅能够理解复杂指令，还能在未见过的虚拟环境中自主推理、规划并执行任务，展现出远超前代的泛化能力。与2024年3月发布的SIMA 1相比，SIMA 2实现了质的飞跃。SIMA 1虽能跨游戏执行基础操作，但复杂任务成功率仅为31%，远低于人类玩家的71%。而SIMA 2在训练过的游戏中任务完成率提升至65%，接近人类水平。其核心突破在于将Gemini的语言理解与推理能力与“具身智能”（embodied intelligence）相结合——即通过观察屏幕、理解环境、自主决策并采取行动，如同人类玩家一般。在《无人深空》中，SIMA 2能识别“成熟番茄是红色的”，从而精准找到红色房屋；在《山羊模拟器3》等物理引擎高度不可预测的游戏中，它也能完成导航、互动等复杂任务。更令人印象深刻的是，SIMA 2支持多模态指令输入，包括文字、语音、手绘草图甚至emoji——用户发送“🪓🌳”即可触发“砍树”行为，体现了AI对抽象符号与现实动作的映射能力。 SIMA 2最引人注目的创新是其“自我改进”机制。不同于SIMA 1完全依赖人类游戏录像训练，SIMA 2在获得初始基线后，可调用另一个Gemini模型自动生成任务与奖励反馈，通过试错不断优化自身行为。这种闭环学习模式，使其能在Genie 3生成的全新虚拟世界中快速适应，展现出跨环境的知识迁移能力——在《我的世界》研究版和ASKA游戏中，成功率分别提升13%和12%，尽管仍低于人类，但已具备显著潜力。 DeepMind强调，SIMA 2并非为打造消费级游戏助手而生，而是作为训练通用智能体的“理想试验场”。其长远目标是构建分层机器人系统：上层由SIMA 2负责认知与规划，下层由专用运动控制模块执行物理动作。这种架构有望将虚拟世界中学到的“理解目标、使用工具、导航环境”等高层技能迁移到真实机器人中。尽管如此，挑战依然存在。当前SIMA 2缺乏长期记忆，对复杂多步骤任务仍显吃力；其控制方式依赖鼠标键盘，与真实机器人运动控制仍有差距。此外，虚拟环境与现实世界的“模拟到现实”鸿沟（sim-to-real gap）仍是重大难题。目前，SIMA 2仅以“有限研究预览”形式向学术界和开发者开放。尽管距离通用机器人落地尚远，但这一进展无疑为AI向真正智能迈进提供了重要路径。在谷歌、OpenAI、Meta、Anthropic等巨头竞逐AGI的背景下，SIMA 2的出现，再次凸显了虚拟训练与大模型融合在推动人工智能突破中的核心价值。