Microsoft Deeply Integrates UFO² with Windows, Significantly Boosting Automation Efficiency
微软近日发布了其开源项目 AgentUFO 的全新版本 UFO²,此次升级进一步深化了与 Windows 系统的集成,并显著增强了自动化任务的执行效率。UFO² 不仅让复杂的操作变得更加便捷,还在多个方面超越了现有的自动化工具。 UFO² 的一大亮点是其可以直接调用 Windows 的原生 API 和 COM 接口。这使得在处理复杂业务时,UFO² 比传统机器人流程自动化(RPA)工具更加高效且精准。例如,将 Excel 表格数据转换为图表,传统 RPA 需要模拟多次鼠标点击,而 UFO² 则可以通过一次 API 调用轻松完成,消除了视觉定位和鼠标模拟的繁琐步骤。 根据测试数据,UFO² 在自动化任务的成功率方面显著高于 OpenAI 的 Operator。在不同的测试场景中,UFO² 的成功率分别为 30.5% 和 32.7%,而 Operator 的成功率仅为 20.8% 和 14.3%。此外,UFO² 在处理复杂任务和跨应用操作时表现更为出色,尤其是在非标准界面的适应性方面,远远超越了 Operator。 UFO² 的核心控制组件 HostAgent 负责解析用户指令、管理应用程序的生命周期,并协调各个 AppAgent 的执行。当用户通过自然语言发出自动化指令时,HostAgent 会将任务分解成一系列子任务,并将这些子任务分配给对应的 AppAgent。每个 AppAgent 专注于特定的 Windows 应用程序,确保任务能够以更高效率完成。 为进一步提升系统的感知能力,UFO² 引入了混合控制检测机制。这种机制结合了视觉输入和应用程序的元数据,提高了系统对图形用户界面(GUI)元素的识别精度,使 AppAgent 在标准和非标准环境中都能稳定运行。 另一个引人注目的创新是 UFC² 的画中画模式。该模式通过在独立的虚拟桌面上运行自动化任务,实现了与用户主桌面操作的隔离。这样一来,用户可以继续在主桌面上正常工作,而不受自动化任务的干扰。这种设计不仅提升了用户体验,还降低了系统故障的风险,增强了安全性。 UFO² 的这些新功能展示了微软在自动化领域取得的最新技术进步,为用户提供了更加高效和灵活的工作环境。微软希望通过这一项目的开源,吸引更多开发者参与其中,共同推动自动化技术的发展。 开源地址: https://github.com/microsoft/UFO?tab=readme-ov-file 总结: 1. UFO² 与 Windows 系统深度集成,能直接调用原生 API,提高自动化效率。 2. UFO² 的自动化任务成功率显著高于 OpenAI 的 Operator,表现优异。 3. 新增的画中画模式实现了自动化任务与用户操作的隔离,提升了用户体验。