Command Palette
Search for a command to run...
Robix: Ein einheitliches Modell für Roboterinteraktion, Schlussfolgerung und Planung
Huang Fang Mengxi Zhang Heng Dong Wei Li Zixuan Wang Qifeng Zhang Xueyun Tian Yucheng Hu Hang Li

Abstract
Wir stellen Robix vor, ein einheitliches Modell, das robotergestütztes Denken, Aufgabenplanung und natürliche Sprachinteraktion in einer einzigen Vision-Sprache-Architektur integriert. Als kognitiver Oberflächenlayer in einem hierarchischen Robotersystem generiert Robix dynamisch atomare Befehle für den Low-Level-Controller sowie sprachliche Rückmeldungen für die Mensch-Roboter-Interaktion. Dadurch können Roboter komplexe Anweisungen befolgen, Aufgaben mit langer Horizontplanung durchführen und natürliche Gespräche mit Menschen innerhalb eines end-to-end-Frameworks führen. Robix erweitert zudem um neue Fähigkeiten wie proaktive Dialogführung, Echtzeit-Unterbrechungsverarbeitung sowie kontextbewusste Alltagslogik-Reasoning während der Aufgabenausführung. Im Kern nutzt Robix Chain-of-Thought-Reasoning und verfolgt eine dreistufige Trainingsstrategie: (1) Fortgesetztes Pretraining zur Verbesserung grundlegender embodied Reasoning-Fähigkeiten, darunter 3D-Raumwahrnehmung, visuelle Grundlage (Visual Grounding) sowie aufgabenorientiertes Denken; (2) überwachtes Feintuning zur Modellierung der Mensch-Roboter-Interaktion und Aufgabenplanung als einheitliche Denk-Handlungs-Sequenz; (3) Verstärkendes Lernen zur Verbesserung der Kohärenz zwischen Denken und Handeln sowie der Konsistenz bei Aufgaben mit langem Horizont. Umfangreiche Experimente zeigen, dass Robix sowohl offene Quellcode- als auch kommerzielle Baselines (z. B. GPT-4o und Gemini 2.5 Pro) in der interaktiven Aufgabenausführung übertrifft und eine starke Generalisierungsfähigkeit bei unterschiedlichen Anweisungstypen (z. B. offene Fragen, mehrstufige Aufgaben, eingeschränkte, ungültige und unterbrochene Anweisungen) sowie bei verschiedenen menschengeführten Aufgaben wie Tischabdecken, Lebensmittelkauf und Ernährungsfiltrierung demonstriert.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.