vor 12 Tagen

GigaBrain-0: Ein visionssprachlich-handelndes Modell angetrieben durch ein Weltenmodell

Details der Forschungsarbeit anzeigen Code anzeigen

GigaBrain Team Angen Ye Boyuan Wang Chaojun Ni Guan Huang Guosheng Zhao Haoyun Li Jie Li Jiagang Zhu Lv Feng

GigaBrain-0: Ein visionssprachlich-handelndes Modell angetrieben durch ein Weltenmodell

Abstract

Die Schulung von Vision-Language-Action (VLA)-Modellen für allgemeine Roboter erfordert typischerweise große Mengen an realweltbasierten Roboterdaten, die kostspielig und zeitaufwendig zu sammeln sind. Die Ineffizienz der physischen Datensammlung begrenzt die Skalierbarkeit und Generalisierungsfähigkeit der derzeitigen VLA-Systeme erheblich. Um dieser Herausforderung zu begegnen, stellen wir GigaBrain-0 vor, ein neuartiges VLA-Grundmodell, das durch datengenerierende Weltmodelle (z. B. Video-Generierung, Real2Real-Transfer, Human-Transfer, View-Transfer, Sim2Real-Transfer) gestärkt wird. Durch die Nutzung von Weltmodellen zur großflächigen Generierung vielfältiger Daten verringert GigaBrain-0 signifikant die Abhängigkeit von echten Roboterdaten und verbessert gleichzeitig die Generalisierungsfähigkeit über Aufgaben hinweg. Unser Ansatz steigert zudem die Robustheit der Policy durch die Modellierung von RGBD-Eingaben und die Anwendung von eingebettetem Chain-of-Thought (CoT)-Supervision, wodurch das Modell in der Lage ist, während der Aufgabenausführung räumliche Geometrie, Objektzustände und langfristige Abhängigkeiten zu verarbeiten. Dies führt zu erheblichen Leistungssteigerungen in der realen Welt bei anspruchsvollen, langfristigen und mobilen Manipulationsaufgaben. Ausführliche Experimente zeigen, dass GigaBrain-0 eine überlegene Generalisierungsfähigkeit hinsichtlich Veränderungen in Erscheinungsbild (z. B. Texturen, Farben), Objektanordnungen und Kameraperspektiven aufweist. Zudem präsentieren wir GigaBrain-0-Small, eine optimierte, leichtgewichtige Variante, die effizient auf Geräten wie dem NVIDIA Jetson AGX Orin betrieben werden kann.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

GigaBrain-0: Ein visionssprachlich-handelndes Modell angetrieben durch ein Weltenmodell

GigaBrain Team Angen Ye Boyuan Wang Chaojun Ni Guan Huang Guosheng Zhao Haoyun Li Jie Li Jiagang Zhu Lv Feng17 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

GigaBrain Team Angen Ye Boyuan Wang Chaojun Ni Guan Huang Guosheng Zhao Haoyun Li Jie Li Jiagang Zhu Lv Feng