Command Palette
Search for a command to run...
GigaBrain-0: Ein visionssprachlich-handelndes Modell angetrieben durch ein Weltenmodell

Abstract
Die Schulung von Vision-Language-Action (VLA)-Modellen für allgemeine Roboter erfordert typischerweise große Mengen an realweltbasierten Roboterdaten, die kostspielig und zeitaufwendig zu sammeln sind. Die Ineffizienz der physischen Datensammlung begrenzt die Skalierbarkeit und Generalisierungsfähigkeit der derzeitigen VLA-Systeme erheblich. Um dieser Herausforderung zu begegnen, stellen wir GigaBrain-0 vor, ein neuartiges VLA-Grundmodell, das durch datengenerierende Weltmodelle (z. B. Video-Generierung, Real2Real-Transfer, Human-Transfer, View-Transfer, Sim2Real-Transfer) gestärkt wird. Durch die Nutzung von Weltmodellen zur großflächigen Generierung vielfältiger Daten verringert GigaBrain-0 signifikant die Abhängigkeit von echten Roboterdaten und verbessert gleichzeitig die Generalisierungsfähigkeit über Aufgaben hinweg. Unser Ansatz steigert zudem die Robustheit der Policy durch die Modellierung von RGBD-Eingaben und die Anwendung von eingebettetem Chain-of-Thought (CoT)-Supervision, wodurch das Modell in der Lage ist, während der Aufgabenausführung räumliche Geometrie, Objektzustände und langfristige Abhängigkeiten zu verarbeiten. Dies führt zu erheblichen Leistungssteigerungen in der realen Welt bei anspruchsvollen, langfristigen und mobilen Manipulationsaufgaben. Ausführliche Experimente zeigen, dass GigaBrain-0 eine überlegene Generalisierungsfähigkeit hinsichtlich Veränderungen in Erscheinungsbild (z. B. Texturen, Farben), Objektanordnungen und Kameraperspektiven aufweist. Zudem präsentieren wir GigaBrain-0-Small, eine optimierte, leichtgewichtige Variante, die effizient auf Geräten wie dem NVIDIA Jetson AGX Orin betrieben werden kann.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.