VIKI-R: Koordination der körperlichen Zusammenarbeit mehrerer Agenten durch Reinforcement Learning

Die Koordination mehrerer verkörperten Agenten in dynamischen Umgebungen bleibt eine zentrale Herausforderung im Bereich der Künstlichen Intelligenz und erfordert sowohl wahrnehmungsgetriebenes Denken als auch skalierbare Kooperationsstrategien. Während kürzliche Arbeiten große Sprachmodelle (LLMs) für die Planung von Mehragentensystemen genutzt haben, haben einige erst begonnen, visuelle Sprachmodelle (VLMs) für visuelles Denken zu erforschen. Diese VLM-basierten Ansätze bleiben jedoch in ihrer Unterstützung vielfältiger Verkörperungsformen begrenzt. In dieser Arbeit stellen wir VIKI-Bench vor, den ersten hierarchischen Benchmark, der speziell für die Kooperation verkörperten Mehragentensystems entwickelt wurde und drei strukturierte Ebenen umfasst: Agentenaktivierung, Aufgabenplanung und Trajektoriewahrnehmung. VIKI-Bench enthält verschiedene Roboter-Verkörperungen, mehrfache visuelle Beobachtungen und strukturierte Überwachungssignale zur Bewertung des auf visuellen Eingaben basierenden Denkens. Um die Nützlichkeit von VIKI-Bench zu demonstrieren, schlagen wir VIKI-R vor, einen zweistufigen Rahmen, der ein vortrainiertes visuelles Sprachmodell (VLM) unter Verwendung von Chain-of-Thought annotierten Demonstrationen feintuningt und dies durch Reinforcement Learning unter mehrstufigen Belohnungssignalen ergänzt. Unsere umfangreichen Experimente zeigen, dass VIKI-R bei allen Aufgabenebenen erheblich besser abschneidet als Baseline-Methoden. Darüber hinaus weisen wir nach, dass Reinforcement Learning die Entstehung kompositioneller Kooperationsmuster zwischen heterogenen Agenten ermöglicht. Zusammen bieten VIKI-Bench und VIKI-R eine einheitliche Testumgebung und Methode zur Förderung der visuell gesteuerten Kooperation in verkörperten KI-Systemen.