Gemini Robotics 1.5:让AI代理真正走进现实世界
谷歌推出新一代机器人AI模型Gemini Robotics 1.5,标志着人工智能正式迈向物理世界。该系统通过引入“代理式”能力,使机器人能够感知环境、规划路径、自主思考、使用工具并完成复杂的多步骤任务,推动通用智能机器人发展。 Gemini Robotics 1.5由两个核心模型协同工作:Gemini Robotics-ER 1.5(具身推理模型)和Gemini Robotics 1.5(视觉-语言-动作模型)。前者扮演“大脑”角色,负责高层规划与逻辑决策,具备先进的空间理解能力,支持自然语言交互,并能调用工具如谷歌搜索获取信息,还可评估任务进展与成功率。后者则负责执行具体动作,结合视觉与语言理解,精准完成每一步操作,并能以自然语言解释自身决策过程,提升透明度。 这两项技术共同提升了机器人在多样化环境中的泛化能力。例如,一个在ALOHA 2机器人上训练的任务,也能在Apptronik的人形机器人Apollo和Franka双臂机器人上顺利执行,无需重新训练,显著加速学习效率。 该系统基于谷歌的Gemini基础模型,通过特定数据集微调,已在15项学术具身推理基准测试中达到领先水平,涵盖空间推理、任务规划、物体识别等多个维度。其能力不仅限于执行,更体现在“思考”——能将复杂任务拆解为可执行的小步骤,适应环境变化,增强鲁棒性。 在安全方面,谷歌强调负责任发展。Gemini Robotics 1.5融合高阶语义推理与多层次安全机制,包括事前安全评估、符合AI原则的对话对齐,以及在必要时触发机器人本地的碰撞规避等安全子系统。同时,谷歌发布了升级版ASIMOV安全基准,涵盖更全面的安全场景与视频数据,用于评估模型在真实环境中的安全表现。 这一进展被视为迈向物理世界通用人工智能(AGI)的重要里程碑。谷歌表示,未来将通过开发者平台持续开放能力,与全球科研社区共同推进机器人智能化进程。
