HyperAI超神经

谷歌推出新一代机器人AI模型Gemini Robotics 1.5，标志着人工智能正式迈向物理世界。该系统通过引入“代理式”能力，使机器人能够感知环境、规划路径、自主思考、使用工具并完成复杂的多步骤任务，推动通用智能机器人发展。 Gemini Robotics 1.5由两个核心模型协同工作：Gemini Robotics-ER 1.5（具身推理模型）和Gemini Robotics 1.5（视觉-语言-动作模型）。前者扮演“大脑”角色，负责高层规划与逻辑决策，具备先进的空间理解能力，支持自然语言交互，并能调用工具如谷歌搜索获取信息，还可评估任务进展与成功率。后者则负责执行具体动作，结合视觉与语言理解，精准完成每一步操作，并能以自然语言解释自身决策过程，提升透明度。这两项技术共同提升了机器人在多样化环境中的泛化能力。例如，一个在ALOHA 2机器人上训练的任务，也能在Apptronik的人形机器人Apollo和Franka双臂机器人上顺利执行，无需重新训练，显著加速学习效率。该系统基于谷歌的Gemini基础模型，通过特定数据集微调，已在15项学术具身推理基准测试中达到领先水平，涵盖空间推理、任务规划、物体识别等多个维度。其能力不仅限于执行，更体现在“思考”——能将复杂任务拆解为可执行的小步骤，适应环境变化，增强鲁棒性。在安全方面，谷歌强调负责任发展。Gemini Robotics 1.5融合高阶语义推理与多层次安全机制，包括事前安全评估、符合AI原则的对话对齐，以及在必要时触发机器人本地的碰撞规避等安全子系统。同时，谷歌发布了升级版ASIMOV安全基准，涵盖更全面的安全场景与视频数据，用于评估模型在真实环境中的安全表现。这一进展被视为迈向物理世界通用人工智能（AGI）的重要里程碑。谷歌表示，未来将通过开发者平台持续开放能力，与全球科研社区共同推进机器人智能化进程。

相关链接

相关链接

相关链接

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑

Command Palette

Gemini Robotics 1.5：让AI代理真正走进现实世界

相关链接

Command Palette

Gemini Robotics 1.5：让AI代理真正走进现实世界

相关链接

Command Palette

Gemini Robotics 1.5：让AI代理真正走进现实世界

相关链接

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑

在线教程｜27B 大模型压缩到 7.2GB！Ternary-Bonsai 用「三进制魔法」让大模型跑进个人电脑