HyperAI

Anthropic最新推出的Claude Sonnet 4.6标志着AI从“调用工具”向“使用软件”的关键跃迁。这一升级的核心能力是“计算机使用”（Computer Use），即AI不再依赖预设API接口，而是像人类一样通过图形界面直接操作电脑——查看屏幕截图、点击按钮、输入文字、滚动页面，并根据视觉反馈动态决策。与传统“工具调用”不同，后者要求所有功能必须封装为API，一旦没有接口就无法执行；而“计算机使用”绕过了这一限制。Claude Sonnet 4.6并非全新模型，而是对Sonnet 4.5的升级，保持相同价格和上下文窗口，但整体性能显著提升。在代码测试中，用户更偏好它（约70%的场景）；在与前代Opus 4.5对比中，也以59%的胜率领先，这在Sonnet模型超越Opus的背景下尤为突出。其核心改进包括：自适应推理（根据任务复杂度调整思考深度）、更强的指令遵循能力，以及更少的过度设计倾向。但真正的突破在于计算机使用能力。其实现机制相当直接：用户下达任务，如“填写报销单”或“查询飞往伦敦的航班”，Claude会截取当前屏幕，分析界面，决定点击位置并发出指令，系统执行后返回新画面，再重复此过程直至完成。整个过程完全基于像素输入，不依赖应用内部接口，与人类操作方式一致。然而，该方式存在明显瓶颈：每一步操作需经历截图、上传、处理、响应、执行的完整往返，耗时数秒，20步任务可能需2-3分钟。此外，截图以视觉token形式计费，且受限于1568像素最大边长和约115万像素，成本与延迟叠加，不适合实时交互。因此，Anthropic建议将其用于背景信息搜集、自动化测试、批量处理等对速度要求不高的场景。真正高效的智能体应具备“多模态协同”能力：能用命令行执行快速操作，用文本编辑器读取文件，仅在真正需要视觉交互时才调用截图。技术实现上，该系统采用标准的智能体循环结构。通过定义computer_20250124、bash_20250124、text_editor_20250728等工具，由Anthropic客户端接收任务，生成操作指令，再由本地代码（如pyautogui）执行鼠标点击、键盘输入等动作。开发者可轻松上手，Anthropic已提供完整的Docker参考实现，包含图形界面、远程桌面和工具桥接。只需运行一条命令，即可在本地访问一个能自动操控电脑的Claude实例，直观体验AI“使用软件”的真实能力。

相关链接

相关链接

相关链接

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

Command Palette

Claude Sonnet 4.6：AI新纪元中的智能协作与计算机应用革新

相关链接

Command Palette

Claude Sonnet 4.6：AI新纪元中的智能协作与计算机应用革新

相关链接

Command Palette

Claude Sonnet 4.6：AI新纪元中的智能协作与计算机应用革新

相关链接

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力

零代码自主发现科学图像处理算法，美阿贡国家实验室提出 CVEvolve，具备写代码/结果自查/策略优化等全栈能力