清华汪玉团队发布VS-Bench多智能体测试基准,全面评估视觉语言模型的推理与决策能力
随着大模型技术的快速发展,其应用正从单一的问答与静态推理任务,逐步迈向复杂、动态的多智能体交互场景,涵盖软件开发、人机协作、游戏博弈等多个领域。然而,当前主流评估基准仍以单智能体或纯文本环境为主,难以全面衡量大模型在真实世界多智能体情境下的综合能力。为此,清华大学汪玉教授团队的博士生徐泽来及其合作者提出全新测试基准VS-Bench(Visual Strategic Bench),专门用于评估视觉语言模型(VLM)在多智能体环境中的推理与决策能力。 VS-Bench包含8个多样化环境,涵盖合作、对抗与混合三种典型模式,模拟真实世界中智能体间复杂的交互关系。研究团队设计了两种互补的评估方式:一是离线的策略推理能力测试,通过评估模型预测其他智能体下一步动作的准确性来衡量其“心智理论”(Theory of Mind)水平;二是在线的决策能力评估,以智能体在长期任务中获得的累积回报为指标,反映其在动态、非平稳环境中优化目标的能力。 研究对14个先进视觉语言模型进行了系统测试,涵盖推理模型、对话模型及开源模型三类。结果显示,尽管所有模型均优于随机基线,但整体性能仍处于初级阶段。在策略推理方面,表现最好的模型o4-mini综合准确率仅为47.8%,表明当前大模型在理解并预测他人行为方面仍有显著差距。其中,推理模型整体领先,对话模型与开源模型表现相近。 更令人关注的是,决策能力普遍薄弱:14个模型中,10个的长期回报得分与随机智能体无异,仅有3个推理模型表现显著优于基线,而最优模型o4-mini的综合得分也仅达24.3%。这一结果凸显了大模型在复杂动态环境中制定长期策略的困难。 有趣的是,在某些社会困境类任务中,如类似“囚徒困境”的合作博弈环境,开源模型反而表现出色,甚至超越部分推理模型。分析表明,这类模型虽单体能力较弱,但更倾向于合作行为,从而在集体收益上取得更高回报。相比之下,推理模型往往更“理性”地追求个体利益,倾向于背叛,导致整体收益下降。 该研究不仅揭示了当前大模型在多智能体场景中的局限性,也为未来研究提供了重要方向。团队计划进一步开展人类对照实验,建立人类表现基准,以更精准评估模型水平;同时将拓展环境多样性与模型覆盖范围,引入更高难度任务与更新模型架构。 VS-Bench的提出,标志着大模型评估正迈向更真实、更复杂的交互场景,有望推动多智能体系统在游戏AI、协同机器人、智能助手等领域的实际应用发展。