HyperAI
il y a 17 jours

VIKI-R : Coordination de la coopération multi-agent incarnée par apprentissage par renforcement

Kang, Li ; Song, Xiufeng ; Zhou, Heng ; Qin, Yiran ; Yang, Jie ; Liu, Xiaohong ; Torr, Philip ; Bai, Lei ; Yin, Zhenfei
VIKI-R : Coordination de la coopération multi-agent incarnée par apprentissage par renforcement
Résumé

La coordination de multiples agents incarnés dans des environnements dynamiques reste un défi majeur en intelligence artificielle, nécessitant à la fois une raisonnement guidé par la perception et des stratégies de coopération évolutives. Bien que les travaux récents aient exploité des grands modèles linguistiques (LLMs) pour la planification multi-agent, quelques-uns ont commencé à explorer des modèles vision-langage (VLMs) pour le raisonnement visuel. Cependant, ces approches basées sur les VLMs restent limitées dans leur soutien aux différents types d'incarnation. Dans cette étude, nous présentons VIKI-Bench, le premier banc d'essai hiérarchique conçu spécifiquement pour la coopération multi-agent incarnée, comprenant trois niveaux structurés : l'activation des agents, la planification des tâches et la perception des trajectoires. VIKI-Bench inclut diverses incarnations robotiques, des observations visuelles multivues et des signaux de supervision structurés pour évaluer le raisonnement fondé sur les entrées visuelles. Pour démontrer l'utilité de VIKI-Bench, nous proposons VIKI-R, un cadre en deux étapes qui affine un modèle vision-langage préformé (VLM) à l'aide de démonstrations annotées par une chaîne de pensée (Chain-of-Thought), suivies d'un apprentissage par renforcement sous des signaux de récompense multiniveaux. Nos expériences approfondies montrent que VIKI-R surpasse significativement les méthodes de base à tous les niveaux de tâche. De plus, nous montrons que l'apprentissage par renforcement permet l'émergence de motifs de coopération compositionnels parmi les agents hétérogènes. Ensemble, VIKI-Bench et VIKI-R offrent une plateforme d'essai unifiée et une méthode pour faire progresser la coopération multi-agent guidée par la vision dans les systèmes d'IA incarnés.