TU-Team stellt VS-Bench vor: 8 Umgebungen zur Prüfung von VLMs in mehragentenbasierten Szenarien
清华大学汪玉教授团队的博士生徐泽来及其合作者提出了一项全新的多智能体评估基准VS-Bench(Visual Strategic Bench),旨在系统评估视觉语言模型(VLM)在复杂交互环境中的推理与决策能力。随着大模型从单轮问答向多步、交互式智能体任务演进,现有测试基准多局限于单智能体或纯文本场景,难以反映真实世界中多智能体共存、协作与竞争的动态特性。为此,VS-Bench构建了8个涵盖合作、对抗与混合策略的多智能体环境,融合视觉感知与语言理解,全面考察VLM在非平稳、高不确定性环境下的表现。研究引入两种互补评估方式:离线的策略推理能力,通过模型预测其他智能体动作的准确率衡量;在线的决策能力,以长期累积回报为指标。团队测试了14个先进VLM,包括推理模型、对话模型与开源模型,发现当前模型虽具备初步策略推理能力,但距离人类水平仍有显著差距。最优模型o4-mini在动作预测任务中仅达47.8%准确率,远低于理想水平。在决策层面,10个模型表现与随机智能体相当,最优模型得分仅为24.3%,表明其在长期目标优化与策略适应方面能力薄弱。值得注意的是,尽管推理模型整体领先,但在某些社会困境任务中,开源模型因更倾向合作行为而表现突出,甚至超越部分推理模型。这揭示出“理性”与“合作”之间的权衡:推理模型更倾向于个体最优策略(如背叛),而开源模型则通过协作实现集体收益最大化,体现出不同模型在价值观与行为倾向上的差异。该发现对构建可信、可协作的人工智能系统具有重要启示。业内专家认为,VS-Bench填补了多智能体多模态评估的空白,为未来AI在游戏AI、人机协同、智能交通等场景的应用提供了关键评测工具。研究团队下一步将开展人类对比实验以建立基准参照,并持续扩展环境多样性与模型覆盖范围,推动大模型智能体向更智能、更可信的方向发展。