Back to Headlines

清华团队发布VS-Bench多智能体测试基准 评估视觉语言模型推理与决策能力

22일 전

清华大学汪玉 교수팀의 박사과정생인 서저라이와 공동 연구자들이 다중 지능체 환경에서 시각언어모델(VLM)의 추론과 의사결정 능력을 평가할 수 있는 새로운 테스트 기준 VS-Bench를 제안했다. 기존 테스트는 주로 단일 지능체나 텍스트 기반 환경에 국한되어 있어, 현실과 유사한 다중 지능체 및 다중 모달리티 환경에서의 능력을 평가하기에 부족했다. VS-Bench는 협력, 대립, 혼합 형태의 총 8개의 다중 지능체 환경을 포함하며, 두 가지 평가 방식을 도입했다. 하나는 이전 행동을 기반으로 다른 지능체의 다음 행동을 예측하는 ‘전략적 추론’ 능력, 다른 하나는 장기적 보상을 극대화하는 ‘의사결정’ 능력이다. 14개의 선도적 시각언어모델(추론형, 대화형, 오픈소스 모델 포함)을 대상으로 실험한 결과, 대부분의 모델은 랜덤 지능체보다는 우수한 성능을 보였지만, 최고 성능을 낸 o4-mini 모델도 전략적 추론 정확도 47.8%에 그쳤다. 의사결정 능력은 더욱 취약했으며, 14개 중 10개가 랜덤 지능체와 유사한 점수를 기록했고, 최고 성능 모델도 종합 점수 24.3%에 머물렀다. 흥미롭게도, 일부 사회적 딜레마 환경(예: 고전적 형이상학적 '죄수의 딜레마' 유사 환경)에서는 오픈소스 모델이 오히려 높은 성과를 냈다. 이는 추론형 모델이 개인 이익을 위해 배신하는 경향이 있지만, 오픈소스 모델은 협력적인 행동을 선호해 공동 이익을 극대화할 수 있기 때문이다. 연구팀은 이 결과를 통해 지능체의 전략적 행동이 단순한 ‘합리성’이 아니라 ‘사회적 성향’에 크게 영향을 받을 수 있음을 시사했다. 향후 연구는 인간과의 비교 실험, 더 다양한 환경과 모델의 확장, 그리고 실제 응용 분야(게임 AI, 인공지능과의 협업 등)로 확장될 예정이다. VS-Bench는 다중 지능체 기반 AI 개발의 기준이 될 전망이다.

Related Links

清华团队发布VS-Bench多智能体测试基准 评估视觉语言模型推理与决策能力 | 헤드라인 | HyperAI초신경