HyperAI

谷歌近日推出名为Gemini 2.5 Computer Use的新版AI模型，专为在浏览器环境中执行复杂任务而设计，标志着其在构建“AI代理”（AI agents）方面迈出关键一步。该模型具备视觉理解与推理能力，能像人类一样操作网页界面，完成诸如填写表单、登录账户、拖拽元素、点击按钮等交互操作，而无需依赖API接口。这一功能尤其适用于那些没有开放接口的网站或移动应用，为自动化任务执行提供了新可能。与OpenAI的ChatGPT Agent和Anthropic的Claude“计算机使用”功能类似，Gemini 2.5 Computer Use旨在让AI在真实用户界面中自主行动。但谷歌强调，其模型目前仅限于浏览器环境，不支持对桌面操作系统进行底层控制，目前支持13种具体操作，包括打开网页、输入文本、滚动页面、选择下拉菜单和拖放元素等。谷歌表示，该模型在多个网页与移动端控制基准测试中表现优于主流竞争对手，且延迟更低。该模型已通过Google AI Studio和Vertex AI向开发者开放，同时在Browserbase平台提供演示，用户可观看AI自动完成“玩2048游戏”或“浏览Hacker News热门讨论”等任务。演示视频经过加速处理，实际操作速度更慢，但已能清晰展现其交互能力。在安全方面，谷歌高度重视AI代理可能带来的风险，如用户恶意操控、模型误判或网络诈骗攻击。为此，其在模型内部直接嵌入了多重安全机制，并为开发者提供可配置的安全控制选项，允许禁用高风险操作，如绕过验证码、修改系统设置或操控医疗设备等。谷歌建议开发者在部署前充分测试系统，确保安全可控。这一发布紧随OpenAI在Dev Day上推出新版ChatGPT应用之后，凸显全球科技巨头在AI代理领域的激烈竞争。谷歌通过Gemini 2.5 Computer Use，进一步强化其在通用AI代理生态中的布局，尤其在无需API的复杂界面操作方面展现技术优势。随着AI代理从“对话”走向“行动”，如何在提升效率的同时保障安全与合规，将成为行业发展的核心议题。

相关链接

相关链接

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

Command Palette

谷歌推出Gemini 2.5计算机使用AI模型

相关链接

Command Palette

谷歌推出Gemini 2.5计算机使用AI模型

相关链接

Command Palette

谷歌推出Gemini 2.5计算机使用AI模型

相关链接

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟

视觉真实之外：清华 WorldArena 全新评测体系揭示具身世界模型的能力鸿沟