HyperAIHyperAI

Command Palette

Search for a command to run...

Claude Sonnet 4.6:AI新纪元中的智能协作与计算机应用革新

Anthropic最新推出的Claude Sonnet 4.6标志着AI从“调用工具”向“使用软件”的关键跃迁。这一升级的核心能力是“计算机使用”(Computer Use),即AI不再依赖预设API接口,而是像人类一样通过图形界面直接操作电脑——查看屏幕截图、点击按钮、输入文字、滚动页面,并根据视觉反馈动态决策。 与传统“工具调用”不同,后者要求所有功能必须封装为API,一旦没有接口就无法执行;而“计算机使用”绕过了这一限制。Claude Sonnet 4.6并非全新模型,而是对Sonnet 4.5的升级,保持相同价格和上下文窗口,但整体性能显著提升。在代码测试中,用户更偏好它(约70%的场景);在与前代Opus 4.5对比中,也以59%的胜率领先,这在Sonnet模型超越Opus的背景下尤为突出。 其核心改进包括:自适应推理(根据任务复杂度调整思考深度)、更强的指令遵循能力,以及更少的过度设计倾向。但真正的突破在于计算机使用能力。 其实现机制相当直接:用户下达任务,如“填写报销单”或“查询飞往伦敦的航班”,Claude会截取当前屏幕,分析界面,决定点击位置并发出指令,系统执行后返回新画面,再重复此过程直至完成。整个过程完全基于像素输入,不依赖应用内部接口,与人类操作方式一致。 然而,该方式存在明显瓶颈:每一步操作需经历截图、上传、处理、响应、执行的完整往返,耗时数秒,20步任务可能需2-3分钟。此外,截图以视觉token形式计费,且受限于1568像素最大边长和约115万像素,成本与延迟叠加,不适合实时交互。 因此,Anthropic建议将其用于背景信息搜集、自动化测试、批量处理等对速度要求不高的场景。真正高效的智能体应具备“多模态协同”能力:能用命令行执行快速操作,用文本编辑器读取文件,仅在真正需要视觉交互时才调用截图。 技术实现上,该系统采用标准的智能体循环结构。通过定义computer_20250124、bash_20250124、text_editor_20250728等工具,由Anthropic客户端接收任务,生成操作指令,再由本地代码(如pyautogui)执行鼠标点击、键盘输入等动作。 开发者可轻松上手,Anthropic已提供完整的Docker参考实现,包含图形界面、远程桌面和工具桥接。只需运行一条命令,即可在本地访问一个能自动操控电脑的Claude实例,直观体验AI“使用软件”的真实能力。

相关链接

Claude Sonnet 4.6:AI新纪元中的智能协作与计算机应用革新 | 热门资讯 | HyperAI超神经