HyperAI超神经
Back to Headlines

AI代理工作流:自主执行与人工监督的完美结合

2 days ago

代理工作流正在改变知识工作者与技术的互动方式。通过使用自主AI代理执行复杂任务,这些工作流在减少人工干预的同时依然需要人类监督,以确保任务的准确性和可靠性。 什么是代理工作流? 代理工作流是指AI代理利用先进的大规模语言模型(LLMs)自主执行多步骤任务的过程。与传统的LLMs不同,AI代理不仅能够生成文本,还能计划、推理并与其他外部工具(如API、数据库或网页浏览器)互动,以实现特定目标。例如,AI代理可以预订航班、草拟邮件或从网站抓取数据,通过将其分解为可操作的步骤来完成任务。 人类监督的重要性 尽管AI代理具备一定程度的自主性,但研究强调,这种自主性最为有效的前提是有人类监督。人类可以提供上下文、设定目标并在AI代理误解任务或产生不准确结果时进行干预。例如,AI代理在执行网络市场调研时,可能会错误理解模糊查询或获取过时数据。此时,人类监督者可以澄清指令、验证来源或调整代理的方法,确保最终结果符合预期。 准确性挑战与基准测试洞察 研究提出了一种约60个基准测试的分类法,这些基准测试在2019年至2025年期间开发,用于评估不同领域的AI代理性能,如一般知识推理、数学习题解决、代码生成和多模态任务。尽管嵌入应用中的语音识别已达到人类水平(95%以上准确率),谷歌的ML语音识别在2017年就已经超过了这一水平,但整体来说,AI代理的准确性仍然不足。 目前,即使是表现最好的AI代理,如S2,在进行50步的任务时,成功率也仅有34.5%,意味着超过60%的任务失败。同样,即使是在计算机使用任务中表现出色的Claude,其在OSWorld基准测试中的得分也只有14.9%,远低于人类水平(70-75%)。OpenAI的Operator在网页和计算机任务中的准确率在30%-50%之间,但仍然落后于人类的能力。 模型过拟合与基准测试 研究人员经常对AI模型进行过拟合,以使其在特定基准测试中获得高分,但这可能无法反映其在现实世界中的表现,导致能力被夸大,实际限制被掩盖。此外,AI代理的日益复杂性——集成了计算机视觉、任务分解和网络搜索等功能——也带来了更高的计算成本,因为这些代理经常多次调用底层语言模型。 未来的解决方案 为了应对准确性挑战,研究提倡加强人与AI的协作协议。通过结合AI代理的可扩展性和人类的判断力,代理工作流可以实现更高的可靠性。例如,允许人类设置明确参数或审查中间输出的框架可以在早期发现问题。此外,通过设计更贴近现实场景的基准测试,开发者可以更好地优化代理性能。 总结 代理工作流代表着向自主AI系统迈出的重要一步,能够在复杂任务中实现较低的人工干预。然而,自主性最有效的情况下是有人类的强力监督。基准测试显示,虽然AI代理在网络浏览和计算机使用方面显示出潜力,但在动态或模棱两可的场景中仍然存在准确性问题。 行业人士评价及公司背景 研究的首席布道师来自Kore.ai,该公司专注于探索AI与语言的交汇点。他们深入研究了从语言模型到AI代理、代理应用程序、开发框架以及数据驱动的生产工具,分享了这些技术如何塑造未来工作的见解。虽然AI代理在不断发展,但当前的准确性和成本效率使其难以广泛应用于企业环境中,因此,增强人机合作将是未来的关键方向。

Related Links