Command Palette
Search for a command to run...
Wie gut sind Grundmodelle bei schrittweiser verkörperte Schlussfolgerung?
Dinura Dissanayake Ahmed Heakl Omkar Thawakar Noor Ahsan et al

Abstract
Körperhafte Agenten, die in der physischen Welt agieren, müssen Entscheidungen treffen, die nicht nur effektiv, sondern auch sicher, räumlich konsistent und kontextuell fundiert sind. Obwohl jüngste Fortschritte bei großen multimodalen Modellen (LMMs) vielversprechende Fähigkeiten im Bereich der visuellen Wahrnehmung und Sprachgenerierung gezeigt haben, bleibt ihre Fähigkeit zur strukturierten Schlussfolgerung für realweltbasierte, körperhafte Aufgaben bisher weitgehend unerforscht. In dieser Arbeit untersuchen wir, wie gut Grundmodelle Schritt-für-Schritt-Schlussfolgerungen in körperhaften Umgebungen durchführen können. Dazu präsentieren wir den Benchmark „Foundation Model Embodied Reasoning (FoMER)“, der speziell entwickelt wurde, um die Schlussfolgerungsfähigkeiten von LMMs in komplexen, körperhaften Entscheidungsszenarien zu bewerten. Unser Benchmark umfasst eine vielfältige Aufgabensammlung, bei der Agenten multimodale Beobachtungen interpretieren, physische Einschränkungen und Sicherheitsaspekte berücksichtigen sowie valide nächste Aktionen in natürlicher Sprache generieren müssen. Wir stellen (i) eine großskalige, sorgfältig zusammengestellte Sammlung körperhafter Schlussfolgerungsaufgaben vor, (ii) einen neuartigen Bewertungsrahmen, der die perceptuelle Grundlage von der Aktionsschlussfolgerung trennt, sowie (iii) eine empirische Analyse mehrerer führender LMMs unter diesem Ansatz. Unser Benchmark enthält über 1.100 Datensätze mit detaillierten Schritt-für-Schritt-Schlussfolgerungen über 10 Aufgaben und 8 unterschiedliche Embodiments, die drei verschiedene Roboterarten abdecken. Unsere Ergebnisse verdeutlichen sowohl das Potenzial als auch die aktuellen Grenzen von LMMs im Bereich der körperhaften Schlussfolgerung und weisen auf zentrale Herausforderungen und Chancen für zukünftige Forschung im Bereich der Roboterkunstintelligenz hin. Unsere Daten und den Quellcode werden öffentlich zugänglich gemacht.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.