Back to Headlines

清华汪玉团队发布VS-Bench基准,全面评估视觉语言模型多智能体推理与决策能力

22日前

清华大学の汪玉教授チームが、視覚言語モデル(VLM)の多智能体行動能力を評価する新テストベンチ「VS-Bench(Visual Strategic Bench)」を発表した。このベンチマークは、協力・対抗・混合の3種類に分けられる合計8つの多智能体環境を含み、視覚と言語を統合するモデルが複雑な戦略的判断と意思決定を行う能力を評価することを目的としている。現行のテスト基準は多くが単一のAIエージェントやテキストベースに限られているため、現実世界に近い多エージェント・多モーダル環境での評価は不足していた。 多智能体環境では、個々のエージェントの行動が他のエージェントの選択に依存するため、単なる自己判断ではなく、他者の行動を予測する「心の理論(Theory of Mind)」が求められる。また、協力と競争が入り混じる非定常的な環境では、長期的な目標を最適化する高い意思決定能力が不可欠となる。 研究チームは、2つの評価方法を採用した。1つは「戦略的推論能力」(離線評価)で、エージェントが他エージェントの次の行動をどれだけ正確に予測できるかを測定。もう1つは「意思決定能力」(オンライン評価)で、エージェントが得る長期的な報酬の合計値を評価した。 14種類の最先端VLM(推論モデル・対話モデル・オープンソースモデル)を対象に実験した結果、すべてのモデルがランダム行動より優れていたものの、最も高い推論精度はo4-miniで47.8%にとどまり、他エージェントの行動を正確に予測する能力には大きな課題が残っていることが明らかになった。また、意思決定能力については、14モデル中10モデルがランダムレベルとほぼ同等の成績にとどまり、最高スコアもo4-miniで24.3%にとどまった。 特に注目すべきは、特定の社会的ジレンマ環境(例:囚徒のジレンマ)において、オープンソースモデルが協力志向の行動を取る傾向があり、結果として推論モデルを上回る性能を発揮した点である。これは、推論モデルが「合理的」に個人利益を追求する一方で、オープンソースモデルが集団的利得を重視する戦略を取る傾向があるためだと分析された。 今後、研究チームは人間の行動と比較する人間実験の導入、さらに多様な環境や最新モデルへの拡張を計画。このベンチマークが、ゲームAIや人機協働など多エージェント応用の発展を促進する基盤になると期待されている。

Related Links

清华汪玉团队发布VS-Bench基准,全面评估视觉语言模型多智能体推理与决策能力 | ヘッドライン | HyperAI超神経