HyperAI

NVIDIA hat mit dem Release von GR00T N1.6 einen bedeutenden Schritt hin zu allgemein einsetzbaren humanoiden Robotern unternommen, indem es eine integrierte Sim-to-Real-Workflow-Plattform vorstellt. Der Fokus liegt auf der Kombination von kognitiver Fähigkeit, präziser Lokomotion und dexterer Manipulation in dynamischen Umgebungen. GR00T N1.6 ist ein multimodales Vision-Language-Action-Modell, das visuelle Eingaben aus kamerabasierten Perspektiven, Roboterzustände und natürliche Sprachanweisungen in eine einheitliche Steuerungsstrategie integriert. Es nutzt die Weltmodell-Engine NVIDIA Cosmos Reason, um komplexe Befehle in schrittweise, szenenbasierte Aktionen zu zerlegen. Dies ermöglicht end-to-end-Steuerung von Bewegung und Manipulation, ohne dass manuelle Programmierung erforderlich ist. Zu den zentralen Verbesserungen im Vergleich zu früheren Versionen zählen eine erweiterte Wahrnehmung durch eine hochauflösende Variante von Cosmos-Reason-2B, die verzerrungsfreies Sehen und bessere Szeneninterpretation ermöglicht. Zudem wurde der Diffusion-Transformer auf 32 Schichten erweitert (2x größer), was flüssigere, adaptivere Bewegungen erzeugt, die sich dynamisch an veränderte Positionen anpassen. Die Generalisierbarkeit über verschiedene Roboterformen (Humanoid, mobile Manipulatoren, zweihändige Arme) wurde durch Tausende Stunden neuer Teleoperationsszenen ausgebaut. Vortrainierte Gewichte erlauben eine zero-shot-Validierung grundlegender Manipulationsprimitiven, während Feinabstimmung für spezifische Roboter oder Aufgaben sinnvoll ist. Die zugrundeliegende Steuerung basiert auf einer ganzen Körper-Verstärkungslern- (RL) Architektur, die in NVIDIA Isaac Lab und Isaac Sim trainiert wurde. Diese Low-Level-Controller generieren menschenähnliche, dynamisch stabile Bewegungsprimitiven für Gehen, Greifen und mehrkontaktbasierte Interaktionen. Durch den Sim-to-Real-Übertragungsweg werden diese Policies ohne zusätzliche Echtwelt-Feinabstimmung auf physische Humanoiden übertragen – ein entscheidender Vorteil für Skalierbarkeit und Robustheit. Die gesamte Architektur, von der hohen Ebene (Befehlsverarbeitung) über die mittlere Ebene (Verhaltenszusammensetzung) bis zur tiefen Ebene (stabile Steuerung), wird zuerst in der Simulation validiert. Für die Navigation nutzt GR00T N1.6 ein synthetisch generiertes Datenset, das mit dem COMPASS-Workflow in Isaac Lab erzeugt wurde. COMPASS kombiniert Imitationslernen, Residual-RL und Policy-Distillation, um mobilitätsbasierte Politiken für verschiedene Roboterformen zu entwickeln. Die Navigation wird nicht direkt in Gelenkträgern, sondern über Geschwindigkeitsbefehle an den ganzen Körper-Controller übergeben – was die Balance und Kontaktkontrolle dem RL-Modell überlässt. Dies führt zu einem robusten, zero-shot-fähigen System, das auch in neuen physischen Umgebungen ohne zusätzliche Datensammlung funktioniert. Zur Lokalisierung im realen Raum setzt NVIDIA auf eine visionbasierte Mapping- und SLAM-Stack, basierend auf CUDA-beschleunigten Bibliotheken (cuVSLAM, cuVGL) und Stereo-Tiefenmodellen. Vorab erstellte Karten – inklusive landmark-basierter, bag-of-words- und Besetzungsmodelle – ermöglichen präzise, driftarme Positionsabschätzungen. Die Systeme arbeiten in ROS2, wobei die Lokalisierung über visuelle Ähnlichkeiten und kontinuierliche Merkmalsverfolgung erfolgt. So kann der Roboter zielgerichtet navigieren und Aufgaben in realen Räumen wie Küchen oder Büros ausführen. Industrieexperten loben die Integration von Sim-to-Real, KI-Reasoning und Echtzeit-Perception als Meilenstein für die Entwicklung allgemeiner Roboter. NVIDIA Robotics positioniert sich mit Isaac-Plattform und AI-Modellen als zentraler Player in der künstlichen Intelligenz für physische Systeme. Die offene Verfügbarkeit von Code, Dokumentation und Lernressourcen (z. B. kostenlose Kurse) fördert die breite Etablierung der Technologie. GR00T N1.6 markiert einen Paradigmenwechsel: Roboter lernen nicht nur, was zu tun ist, sondern auch, wie sie es in der realen Welt mit Stabilität und Intelligenz tun können.

Verwandte Links

Verwandte Links

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Command Palette

NVIDIA präsentiert GR00T N1.6 mit Sim-to-Real-Workflow für humanoides Robotik-Verhalten

Verwandte Links

Command Palette

NVIDIA präsentiert GR00T N1.6 mit Sim-to-Real-Workflow für humanoides Robotik-Verhalten

Verwandte Links

Command Palette

NVIDIA präsentiert GR00T N1.6 mit Sim-to-Real-Workflow für humanoides Robotik-Verhalten

Verwandte Links

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf

Jenseits Der Visuellen Realität: Das Neue Bewertungssystem Der Tsinghua WorldArena Deckt Die Leistungslücke in Verkörperten Weltmodellen Auf