HyperAI超神经

VS-Bench:评估多智能体环境中的视觉语言模型的战略推理和决策能力

Zelai Xu, Zhexuan Xu, Xiangmin Yi, Huining Yuan, Xinlei Chen, Yi Wu, Chao Yu, Yu Wang
发布日期: 6/4/2025
VS-Bench:评估多智能体环境中的视觉语言模型的战略推理和决策能力
摘要

近期在视觉语言模型(Vision Language Models, VLMs)方面的进展已经扩展了它们在交互式代理任务中的能力,但现有的基准测试仍然局限于单代理或纯文本环境。相比之下,现实世界场景通常涉及多个代理在丰富的视觉和语言背景下进行互动,这不仅对多模态观察提出了挑战,也对战略互动提出了要求。为了弥合这一差距,我们引入了视觉战略基准(Visual Strategic Bench, VS-Bench),这是一个多模态基准测试,用于评估VLMs在多代理环境中的战略推理和决策能力。VS-Bench 包含八个基于视觉的环境,涵盖了合作、竞争和混合动机的互动,旨在评估代理预测其他代理未来行动的能力以及优化长期目标的能力。我们考虑了两个互补的评价维度:通过下一动作预测精度进行的战略推理离线评价和通过标准化剧集回报进行的决策在线评价。对十四种领先的VLMs进行了广泛的实验,结果显示当前模型与最优性能之间存在显著差距,最佳模型仅达到47.8%的预测精度和24.3%的标准化回报。我们进一步对多模态观察、测试时扩展、社会行为及失败案例进行了深入分析。通过标准化评价并突出现有模型的局限性,我们期望VS-Bench能够成为未来研究战略多模态代理的基础。代码和数据可在 https://vs-bench.github.io 获取。