HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Robix: Ein einheitliches Modell für Roboterinteraktion, Schlussfolgerung und Planung

Huang Fang Mengxi Zhang Heng Dong Wei Li Zixuan Wang Qifeng Zhang Xueyun Tian Yucheng Hu Hang Li

Robix: Ein einheitliches Modell für Roboterinteraktion, Schlussfolgerung und Planung

Abstract

Wir stellen Robix vor, ein einheitliches Modell, das robotergestütztes Denken, Aufgabenplanung und natürliche Sprachinteraktion in einer einzigen Vision-Sprache-Architektur integriert. Als kognitiver Oberflächenlayer in einem hierarchischen Robotersystem generiert Robix dynamisch atomare Befehle für den Low-Level-Controller sowie sprachliche Rückmeldungen für die Mensch-Roboter-Interaktion. Dadurch können Roboter komplexe Anweisungen befolgen, Aufgaben mit langer Horizontplanung durchführen und natürliche Gespräche mit Menschen innerhalb eines end-to-end-Frameworks führen. Robix erweitert zudem um neue Fähigkeiten wie proaktive Dialogführung, Echtzeit-Unterbrechungsverarbeitung sowie kontextbewusste Alltagslogik-Reasoning während der Aufgabenausführung. Im Kern nutzt Robix Chain-of-Thought-Reasoning und verfolgt eine dreistufige Trainingsstrategie: (1) Fortgesetztes Pretraining zur Verbesserung grundlegender embodied Reasoning-Fähigkeiten, darunter 3D-Raumwahrnehmung, visuelle Grundlage (Visual Grounding) sowie aufgabenorientiertes Denken; (2) überwachtes Feintuning zur Modellierung der Mensch-Roboter-Interaktion und Aufgabenplanung als einheitliche Denk-Handlungs-Sequenz; (3) Verstärkendes Lernen zur Verbesserung der Kohärenz zwischen Denken und Handeln sowie der Konsistenz bei Aufgaben mit langem Horizont. Umfangreiche Experimente zeigen, dass Robix sowohl offene Quellcode- als auch kommerzielle Baselines (z. B. GPT-4o und Gemini 2.5 Pro) in der interaktiven Aufgabenausführung übertrifft und eine starke Generalisierungsfähigkeit bei unterschiedlichen Anweisungstypen (z. B. offene Fragen, mehrstufige Aufgaben, eingeschränkte, ungültige und unterbrochene Anweisungen) sowie bei verschiedenen menschengeführten Aufgaben wie Tischabdecken, Lebensmittelkauf und Ernährungsfiltrierung demonstriert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Robix: Ein einheitliches Modell für Roboterinteraktion, Schlussfolgerung und Planung | Forschungsarbeiten | HyperAI