谷歌推出Gemini 2.5计算机使用AI模型
谷歌近日推出名为Gemini 2.5 Computer Use的新版AI模型,专为在浏览器环境中执行复杂任务而设计,标志着其在构建“AI代理”(AI agents)方面迈出关键一步。该模型具备视觉理解与推理能力,能像人类一样操作网页界面,完成诸如填写表单、登录账户、拖拽元素、点击按钮等交互操作,而无需依赖API接口。这一功能尤其适用于那些没有开放接口的网站或移动应用,为自动化任务执行提供了新可能。 与OpenAI的ChatGPT Agent和Anthropic的Claude“计算机使用”功能类似,Gemini 2.5 Computer Use旨在让AI在真实用户界面中自主行动。但谷歌强调,其模型目前仅限于浏览器环境,不支持对桌面操作系统进行底层控制,目前支持13种具体操作,包括打开网页、输入文本、滚动页面、选择下拉菜单和拖放元素等。谷歌表示,该模型在多个网页与移动端控制基准测试中表现优于主流竞争对手,且延迟更低。 该模型已通过Google AI Studio和Vertex AI向开发者开放,同时在Browserbase平台提供演示,用户可观看AI自动完成“玩2048游戏”或“浏览Hacker News热门讨论”等任务。演示视频经过加速处理,实际操作速度更慢,但已能清晰展现其交互能力。 在安全方面,谷歌高度重视AI代理可能带来的风险,如用户恶意操控、模型误判或网络诈骗攻击。为此,其在模型内部直接嵌入了多重安全机制,并为开发者提供可配置的安全控制选项,允许禁用高风险操作,如绕过验证码、修改系统设置或操控医疗设备等。谷歌建议开发者在部署前充分测试系统,确保安全可控。 这一发布紧随OpenAI在Dev Day上推出新版ChatGPT应用之后,凸显全球科技巨头在AI代理领域的激烈竞争。谷歌通过Gemini 2.5 Computer Use,进一步强化其在通用AI代理生态中的布局,尤其在无需API的复杂界面操作方面展现技术优势。随着AI代理从“对话”走向“行动”,如何在提升效率的同时保障安全与合规,将成为行业发展的核心议题。