HyperAIHyperAI

Command Palette

Search for a command to run...

AgentVista:在超具挑战性的真实视觉场景中评估多模态 Agent

摘要

现实世界中的多模态智能体能够基于视觉证据解决多步骤工作流任务。例如,智能体可通过将设备接线照片与电路原理图进行关联,并结合在线文档验证修复方案,从而实现设备故障排查;亦可通过解读交通路线图,并在路由约束条件下查询时刻表,以规划行程。然而,现有的多模态基准测试主要聚焦于单轮视觉推理或特定工具技能的评估,未能充分涵盖实际应用智能体所必需的逼真度、视觉细节的微妙性以及长视野(long-horizon)工具调用能力。为此,我们提出了 AgentVista——一个面向通用多模态智能体的基准测试平台。该基准涵盖 7 大类共 25 个子领域,将高逼真度、细节丰富的视觉场景与自然的混合工具使用相结合。任务设计强调跨模态的长视野工具交互,涵盖网络搜索、图像搜索、页面导航,以及面向图像处理与通用编程的代码操作。对当前最先进模型的综合评估揭示了其在执行长视野多模态工具调用方面存在显著能力缺口。即便在评估中表现最佳的模型(集成工具能力的 Gemini-3-Pro),其整体准确率也仅为 27.3%;部分高难度实例甚至需要超过 25 次工具调用回合方可完成。我们期望 AgentVista 能够加速更具能力与可靠性的多模态智能体研发,以应对现实世界中的超高难度问题求解挑战。

一句话总结

来自香港科技大学及合作机构的研究人员推出了 AgentVista,这是一个涵盖 25 个子领域的综合基准测试,旨在评估通用多模态智能体在长视野、混合工具使用任务上的表现。这项工作揭示了当前模型(如 GEMINI-3-PRO)存在的关键差距,旨在推动基于真实场景的多步骤视觉问题解决技术的发展。

主要贡献

  • AgentVista是一个涵盖 25 个子领域的基准测试,它将细节丰富的视觉场景与自然的混合工具使用(包括网络搜索、图像搜索和基于代码的操作)相结合。
  • 任务设计强调跨模态的长视野工具交互,涵盖网络搜索、图像搜索、页面导航,以及面向图像处理与通用编程的代码操作。对当前最先进模型的综合评估揭示了其在执行长视野多模态工具调用方面存在显著能力缺口。
  • 全面评估揭示了最先进模型存在显著的能力差距,表现最好的模型在可能需要超过 25 次工具调用轮次的任务中,准确率仅为 27.3%。

引言

现实世界的多模态智能体必须通过将推理建立在视觉证据之上,并利用网络搜索和代码执行等多样化工具,来解决复杂的多步骤问题。当前的基准测试存在不足,因为它们侧重于单轮推理或孤立技能,未能捕捉到实际部署所需的真实性、视觉细微差别以及长视野工具交互。为了解决这一问题,作者推出了 AgentVista,这是一个涵盖 25 个子领域的综合基准测试,它将细节丰富的视觉场景与自然的混合工具使用相结合,以评估通用智能体在超挑战性任务上的表现。他们的工作揭示了最先进模型中存在显著的性能差距,即使是顶级系统在需要超过 25 次工具调用轮次的任务中也仅能达到较低的准确率。

数据集

  • 数据集构成与来源 作者推出了 AgentVISTA,这是一个包含 209 个任务的基准测试,这些任务基于真实图像和真实的用户需求。数据来源于三个主要渠道:公共视觉 - 语言模型竞技场(提供超过 284,000 张图像)、标注员捕捉的日常场景以及私人社区求助论坛。该数据集涵盖七大主要类别,包括技术、商业、地理、娱乐、社会、学术和文化,这些类别进一步细分为 25 个具体子领域。

  • 每个子集的关键细节 每个任务都设计为以视觉为中心,要求模型从复杂的视觉输入(如产品目录、地图或技术图表)中提取关键证据,而不是依赖文本捷径。任务强制要求自然的交错工具使用,迫使智能体结合至少两类工具,如网络搜索、图像搜索、页面导航和代码执行。每个实例都包含一个确定性的、可验证的答案,格式固定(如特定数字、实体名称或日期),以确保客观评估。

  • 模型使用与训练策略 AgentVISTA 仅作为评估基准,而非训练数据集。作者利用它来测试通用多模态智能体在需要多步骤推理和约束跟踪的长视野工作流上的表现。实验表明,即使是像 GEMINI-3-PRO 这样的顶级模型,准确率也仅为 27.3%,突显了视觉 grounding 和可靠工具使用方面的显著差距。该基准通过跟踪工具调用轮次的数量以及正确综合视觉和外部信息的能力来衡量性能。

  • 处理与构建流程 数据集的创建遵循严格的四阶段流程,始于 30 万 + 张候选图像。

    • 阶段 1(以智能体为中心的过滤): 像 CLAUDE-Opus-4 这样的模型会过滤掉视觉信息有限或智能体潜力较弱的图像,随后进行人工筛选,仅保留丰富的视觉证据。
    • 阶段 2(专家定稿): 标注员将查询重写为真实的用户请求,确保任务需要细粒度的视觉线索和交错工具使用,同时记录真实答案和证据步骤。
    • 阶段 3(执行过滤): 通过在工具环境中执行任务来验证任务,确认可复现的输出,并移除无需工具即可解决的实例。
    • 阶段 4(两轮验证): 独立的验证团队检查视觉依赖性和答案稳定性,移除任何证据不明确或工作流不现实的任务。 最终数据集排除了简单的 OCR 任务、直接问答和主观意见,严格专注于复杂的多跳推理场景。

方法

作者设计了 AgentVista 以支持一组紧凑的工具,涵盖常见的多模态智能体工作流。模型可以调用 web_search 检索网页,调用 visit 打开并导航页面,以及在查询需要外部视觉参考时调用 image_search 定位图像。系统还提供 code_interpreter,支持编程和图像处理。该工具支持算术和解析、结构化提取,以及在需要时进行裁剪、调整大小、测量和比较视觉区域等操作。所有工具均提供详细的描述以及结构化的输入和输出,以便模型决定何时调用工具以及如何利用返回的结果。

智能体遵循特定的指令协议来解决问题。它首先分析图像和用户的问题,随后进行逐步推理。然后,智能体调用适当的工具收集信息,并根据需要迭代,直到对发现结果有信心。最后,智能体在特定标签内提供答案。下图展示了该工作流的示例,其中智能体通过比较图像、验证目标房间并计算材料成本来处理关于地板风格的查询。

为了确保任务的质量和难度水平,作者采用了多阶段过滤和验证流程。请参阅框架图了解整体过程,该流程将包含超过 300,000+300,000+300,000+ 张图像和场景的原始数据池转化为包含 209209209 个超挑战性任务的最终数据集。

该流程始于阶段 1(以智能体为中心的过滤器),该阶段移除低质量图像、生成任务查询,并涉及人工筛选以评估复杂性。阶段 2 专注于通过构建和标注进行最终过滤,以创建具有挑战性的任务。阶段 3 涉及执行过滤,包括长视野测试和工具必要性检查,以及混合动作验证。最后,阶段 4 通过两轮审查、工具结果复现和最终任务批准来确保质量保证。

实验

  • 在 AgentVista 基准测试上对前沿多模态模型的评估显示,当前的智能体难以处理需要基于真实视觉证据进行多步骤工具使用的复杂长视野任务,即使是表现最好的模型也仅达到中等准确率。
  • 不同模型系列和领域的性能差异显著,表明没有单一模型具备统一的胜任力;GPT 模型在实用类别中表现出色,Gemini 在地理和整体准确率方面领先,而 Claude 模型在需要仔细遵循约束的任务中显示出优势。
  • 比较输入模式的实验表明,多图像输入通常通过提供互补证据和减少歧义来提高准确率,这表明主要瓶颈在于长视野推理,而非处理多张图像的复杂性。
  • 工具消融研究证实,结合视觉操作和外部检索的混合工作流能产生最佳结果,尽管对特定工具的依赖因模型而异,有些模型优先考虑基于代码的图像分析,而另一些则倾向于网络搜索。
  • 错误分析指出,视觉误识别是主要的失败模式,其次是知识幻觉,这突显了细粒度视觉理解以及基于所提供证据进行推理的能力存在关键弱点。
  • 测试时扩展实验表明,生成多个样本并选择最佳答案可以提高性能,但选定输出与理论上限之间仍存在显著差距,这表明需要更好的优化方法来处理复杂的工具交互。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供