EmbRACE-3K: Embodied Reasoning und Aktion in komplexen Umgebungen

Neueste fortschrittliche visuelle Sprachmodelle (VLMs) haben bei passiven, offline-Bild- und Videoverstehensaufgaben eine starke Leistung gezeigt. Allerdings bleibt ihre Effektivität in verkörperten Szenarien, die eine Online-Interaktion und ein aktives Verständnis der Szene erfordern, begrenzt. In solchen Situationen nimmt ein Agent die Umgebung aus einer ersten Person Perspektive wahr, wobei jede Aktion die nachfolgenden Beobachtungen dynamisch beeinflusst. Selbst state-of-the-art Modelle wie GPT-4o, Claude 3.5 Sonnet und Gemini 2.5 Pro ringen mit offenen Umgebungsinteraktionen und zeigen deutliche Einschränkungen im räumlichen Denken und langfristigen Planen. Um diese Lücke zu schließen, stellen wir EmRACE-3K vor, einen Datensatz von über 3.000 sprachgesteuerten Aufgaben, die in vielfältigen, fotorealistischen Umgebungen unter Verwendung von Unreal Engine und dem UnrealCV-Zoo-Framework erstellt wurden. Die Aufgaben umfassen eine breite Palette an verkörperten Herausforderungen, darunter Navigation, Objektmanipulation und mehrstufiges Zielvollzug. Jede Aufgabe entfaltet sich als mehrschrittige Trajektorie, bei der erste-Person-Bildbeobachtungen mit hochwertigen Anweisungen, verankerten Aktionen und natürlichsprachlichen Begründungen verbunden sind, die den Intent des Agenten bei jedem Schritt ausdrücken. Mit EmRACE-3K legen wir einen Benchmark fest, um die verkörperten Denkfähigkeiten von VLMs in drei wesentlichen Dimensionen zu bewerten: Exploration, Dynamische räumlich-semantische Schlussfolgerung und Mehrstufiger Zielvollzug. In Null-Shot-Einstellungen erreichen alle Modelle Erfolgsraten unter 20 %, was die Herausforderung unseres Benchmarks sowie die aktuellen Einschränkungen von VLMs in interaktiven Umgebungen unterstreicht. Um die Nützlichkeit von EmRACE-3K zu demonstrieren, feinjustieren wir Qwen2.5-VL-7B zunächst durch überwachtes Lernen und anschließend durch verstärkendes Lernen. Dieser Ansatz führt zu erheblichen Verbesserungen in allen drei Herausforderungskategorien und betont die Effektivität des Datensatzes bei der Förderung der Entwicklung verkörperten Denkvermögens.