谷歌推出Gemini Robotics On-Device:首个完全本地化的机器人AI模型
谷歌于近日发布了其最新的机器人技术成果——Gemini Robotics On-Device,这是第一个能够在物理机器人体内完全本地化运行的多模态机器人VLA(视觉-语言-动作)模型。与以往不同的是,开发者可以根据自己的特定需求和应用场景,快速对模型进行定制化训练。仅需50至100个新的任务演示(通常是通过遥控操作机器人完成的),模型就能迅速学会并掌握新技能,展现出强大的“快速任务适应”能力。 为证明该模型的跨平台通用性,谷歌团队展示了Gemini Robotics On-Device在多种第三方机器人上的应用效果,包括德国Franka Emika公司的双臂协作机器人和Apptronik公司开发的具备人类形态的机器人Apollo。在演示中,Apollo机器人能够根据“把黑色T恤放进袋子”或“把魔方放进袋子”等自然语言指令,准确定位并完成相应的物理操作。这说明谷歌的新技术不仅适用于自家设备,还能无缝集成到其他机器人的控制系统中。 然而,伴随这一重大技术突破而来的还有安全性的顾虑。大型AI模型虽然拥有出色的控制能力和灵活性,但如何确保其行为的安全、可控和可预测成为一大挑战。谷歌研究员Parada提到,生成式AI通常存在一定的随机性,这意味着在聊天场景中可能只会生成一些令人恼火的胡言乱语,但在物理场景中则可能导致严重的安全隐患。 对此,谷歌强调整体解决方案的重要性。发布的On-Device模型只是一套核心的VLA系统,不包含完整版的安全框架。谷歌建议开发者复制内部团队所采用的多层次安全策略。这包括将本地模型与标准化的Gemini Live API连接,后者利用内建的安全层进行语言和内容审查,过滤掉不安全或不合适的指令;此外,还需要在机器人硬件层面集成一个低级别的安全控制器,实时监控机械手的动作范围、力度等关键参数,作为最后一道防线。谷歌也鼓励开发者充分利用其开放的语言安全标准进行“红队演练”,即提前充分暴露和修复模型潜藏的安全漏洞。 目前,谷歌已经启动了一项“任信用测试者计划”,邀请有经验的开发者和研究人员申请试用全新的Gemini Robotics On-Device模型及其配套的软件开发工具包。这一工具包集成了物理模拟器MuJoCo,可以让开发者在虚拟环境中进行大规模测试和调优,确保模型部署到实际机器人之前经过严格验证。 长远来看,谷歌这次发布的机器人AI模型还只是一个开始。现役的Gemini Robotics是基于Gemini 2.0版本构建的,未来随着最新版本Gemini 2.5性能的提升,下一代机器人模型的表现也有望更进一步。 业内专家认为,Gemini Robotics On-Device的推出标志着机器人技术和AI应用迈入了一个新阶段,它不仅加速了机器学习模型在物理机器人中的普及和应用,而且也为安全可控的技术创新提供了重要参考。谷歌作为全球领先的AI研发机构,本次技术分享无疑将会对整个行业的发展产生深远影响。