HyperAIHyperAI
Back to Headlines

清华团队发布VS-Bench:首个聚焦多智能体视觉语言模型的综合评测基准

il y a 22 jours

Face à l’évolution des grands modèles, leurs capacités s’étendent désormais au-delà des tâches ponctuelles et statiques comme les questions-réponses ou le raisonnement simple, pour s’orienter vers des missions complexes, interactives et séquentielles, notamment dans des domaines tels que le développement logiciel, l’usage informatique ou les jeux stratégiques. Toutefois, les benchmarks existants restent majoritairement centrés sur des scénarios à un seul agent ou sur des environnements textuels, laissant un vide critique en matière d’évaluation des modèles multimodaux et multi-agents. Dans une étude récente, une équipe menée par le professeur Wang Yu de l’Université Tsinghua, avec la contribution du doctorant Xu Zelai et d’autres collaborateurs, a introduit VS-Bench (Visual Strategic Bench), un nouveau benchmark conçu pour évaluer les capacités de raisonnement et de prise de décision des modèles vision-langage (VLM) dans des environnements multi-agents. Pourquoi évaluer les modèles dans des environnements multi-agents ? Parce que le monde réel est intrinsèquement un système multi-agents, où les interactions entre entités intelligentes — qu’elles soient humaines ou artificielles — imposent de nouvelles exigences. En termes de raisonnement, un agent doit non seulement choisir des actions pertinentes, mais aussi prédire les comportements des autres agents, ce qui implique une forme de theory of mind. En matière de décision, la dynamique de coopération, de compétition ou de stratégie changeante rend l’environnement non stationnaire, exigeant une optimisation robuste des objectifs à long terme malgré l’incertitude. Pour répondre à ces défis, le benchmark VS-Bench propose huit environnements multi-agents couvrant trois types de dynamiques : coopération, antagonisme et combinaison des deux. Deux méthodes d’évaluation complémentaires ont été proposées : une évaluation hors ligne du raisonnement stratégique, mesurée par la précision de la prédiction des actions futures des autres agents ; et une évaluation en ligne de la prise de décision, basée sur le retour cumulé obtenu par l’agent sur le long terme. L’équipe a testé 14 grands modèles vision-langage avancés, incluant des modèles de raisonnement, des modèles conversationnels et des modèles open-source. Les résultats révèlent deux constats majeurs : Premièrement, les modèles actuels montrent une capacité de raisonnement stratégique rudimentaire, mais restent loin de prédire avec précision les actions des autres agents. Bien que tous surpassent un agent aléatoire, le meilleur modèle — o4-mini — atteint seulement 47,8 % de précision moyenne. Les modèles de raisonnement s’imposent clairement, tandis que les modèles conversationnels et open-source affichent des performances comparables, légèrement inférieures. Deuxièmement, la capacité décisionnelle dans les environnements multi-agents est encore très faible. Dix des quatorze modèles obtiennent des scores similaires à ceux d’un agent aléatoire. Seuls trois modèles de raisonnement dépassent significativement ce seuil, et le meilleur — o4-mini — atteint 24,3 % de score global, loin du potentiel attendu. Une observation surprenante a été faite dans certains scénarios de dilemme social, comme une version du dilemme du prisonnier. Bien que les modèles de raisonnement soient plus « rationnels » et souvent plus enclins à trahir pour maximiser leur gain individuel, certains modèles open-source, malgré une performance globale moindre, se distinguent par leur préférence pour la coopération. Cette stratégie collaborative leur permet de réaliser de meilleurs résultats collectifs, dépassant parfois certains modèles de raisonnement dans ces contextes. Les chercheurs espèrent que VS-Bench deviendra une référence standard pour évaluer les agents intelligents dans des scénarios multi-agents, stimulant ainsi l’avancement des algorithmes et applications dans des domaines comme l’IA de jeu, la collaboration homme-machine ou les systèmes autonomes. À l’avenir, l’équipe prévoit d’étendre le benchmark en intégrant des expériences humaines pour établir un point de référence humain, ainsi que de nouveaux environnements et modèles plus récents, afin de suivre l’évolution rapide du domaine.

Related Links

清华团队发布VS-Bench:首个聚焦多智能体视觉语言模型的综合评测基准 | Gros titres | HyperAI