HyperAIHyperAI

Command Palette

Search for a command to run...

EmbRACE-3K: Embodied Reasoning und Aktion in komplexen Umgebungen

Mingxian Lin Wei Huang Yitang Li Chengjie Jiang Kui Wu Fangwei Zhong Shengju Qian Xin Wang Xiaojuan Qi

Zusammenfassung

Neueste fortschrittliche visuelle Sprachmodelle (VLMs) haben bei passiven, offline-Bild- und Videoverstehensaufgaben eine starke Leistung gezeigt. Allerdings bleibt ihre Effektivität in verkörperten Szenarien, die eine Online-Interaktion und ein aktives Verständnis der Szene erfordern, begrenzt. In solchen Situationen nimmt ein Agent die Umgebung aus einer ersten Person Perspektive wahr, wobei jede Aktion die nachfolgenden Beobachtungen dynamisch beeinflusst. Selbst state-of-the-art Modelle wie GPT-4o, Claude 3.5 Sonnet und Gemini 2.5 Pro ringen mit offenen Umgebungsinteraktionen und zeigen deutliche Einschränkungen im räumlichen Denken und langfristigen Planen. Um diese Lücke zu schließen, stellen wir EmRACE-3K vor, einen Datensatz von über 3.000 sprachgesteuerten Aufgaben, die in vielfältigen, fotorealistischen Umgebungen unter Verwendung von Unreal Engine und dem UnrealCV-Zoo-Framework erstellt wurden. Die Aufgaben umfassen eine breite Palette an verkörperten Herausforderungen, darunter Navigation, Objektmanipulation und mehrstufiges Zielvollzug. Jede Aufgabe entfaltet sich als mehrschrittige Trajektorie, bei der erste-Person-Bildbeobachtungen mit hochwertigen Anweisungen, verankerten Aktionen und natürlichsprachlichen Begründungen verbunden sind, die den Intent des Agenten bei jedem Schritt ausdrücken. Mit EmRACE-3K legen wir einen Benchmark fest, um die verkörperten Denkfähigkeiten von VLMs in drei wesentlichen Dimensionen zu bewerten: Exploration, Dynamische räumlich-semantische Schlussfolgerung und Mehrstufiger Zielvollzug. In Null-Shot-Einstellungen erreichen alle Modelle Erfolgsraten unter 20 %, was die Herausforderung unseres Benchmarks sowie die aktuellen Einschränkungen von VLMs in interaktiven Umgebungen unterstreicht. Um die Nützlichkeit von EmRACE-3K zu demonstrieren, feinjustieren wir Qwen2.5-VL-7B zunächst durch überwachtes Lernen und anschließend durch verstärkendes Lernen. Dieser Ansatz führt zu erheblichen Verbesserungen in allen drei Herausforderungskategorien und betont die Effektivität des Datensatzes bei der Förderung der Entwicklung verkörperten Denkvermögens.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp