HyperAIHyperAI

Command Palette

Search for a command to run...

vor 12 Tagen

GigaBrain-0: Ein visionssprachlich-handelndes Modell angetrieben durch ein Weltenmodell

GigaBrain-0: Ein visionssprachlich-handelndes Modell angetrieben durch ein Weltenmodell

Abstract

Die Schulung von Vision-Language-Action (VLA)-Modellen für allgemeine Roboter erfordert typischerweise große Mengen an realweltbasierten Roboterdaten, die kostspielig und zeitaufwendig zu sammeln sind. Die Ineffizienz der physischen Datensammlung begrenzt die Skalierbarkeit und Generalisierungsfähigkeit der derzeitigen VLA-Systeme erheblich. Um dieser Herausforderung zu begegnen, stellen wir GigaBrain-0 vor, ein neuartiges VLA-Grundmodell, das durch datengenerierende Weltmodelle (z. B. Video-Generierung, Real2Real-Transfer, Human-Transfer, View-Transfer, Sim2Real-Transfer) gestärkt wird. Durch die Nutzung von Weltmodellen zur großflächigen Generierung vielfältiger Daten verringert GigaBrain-0 signifikant die Abhängigkeit von echten Roboterdaten und verbessert gleichzeitig die Generalisierungsfähigkeit über Aufgaben hinweg. Unser Ansatz steigert zudem die Robustheit der Policy durch die Modellierung von RGBD-Eingaben und die Anwendung von eingebettetem Chain-of-Thought (CoT)-Supervision, wodurch das Modell in der Lage ist, während der Aufgabenausführung räumliche Geometrie, Objektzustände und langfristige Abhängigkeiten zu verarbeiten. Dies führt zu erheblichen Leistungssteigerungen in der realen Welt bei anspruchsvollen, langfristigen und mobilen Manipulationsaufgaben. Ausführliche Experimente zeigen, dass GigaBrain-0 eine überlegene Generalisierungsfähigkeit hinsichtlich Veränderungen in Erscheinungsbild (z. B. Texturen, Farben), Objektanordnungen und Kameraperspektiven aufweist. Zudem präsentieren wir GigaBrain-0-Small, eine optimierte, leichtgewichtige Variante, die effizient auf Geräten wie dem NVIDIA Jetson AGX Orin betrieben werden kann.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GigaBrain-0: Ein visionssprachlich-handelndes Modell angetrieben durch ein Weltenmodell | Forschungsarbeiten | HyperAI