Drei Neuronale Durchbrüche für intelligente Roboterlernen von NVIDIA
Roboter sind in kontrollierten Umgebungen bereits leistungsfähig, doch bei komplexen, realen Aufgaben wie der präzisen Montage oder dem Umgang mit Alltagsgegenständen fehlt ihnen oft die Flexibilität und Feinmotorik des Menschen. NVIDIA Research präsentiert nun drei bahnbrechende neuronale Fortschritte, die den Weg für eine effizientere und realistischere Robotikforschung ebnen – vorgestellt auf der Konferenz CoRL 2025. Diese Innovationen adressieren zentrale Herausforderungen: präzise Dynamikvorhersage, dexteröse Manipulation aus menschlichen Bewegungen und präzise bimanuelle Montage durch Kombination von Vision und Tastempfinden. Ein zentraler Fortschritt ist NeRD (Neural Robot Dynamics), ein lernbasierter Dynamikmodell, der die Simulation komplexer Roboter mit vielen Freiheitsgraden revolutioniert. Statt klassischer physikalischer Solver nutzt NeRD einen Transformer-basierten Ansatz, der aus 100.000 zufälligen Trajektorien trainiert wird und die Bewegungen von Robotern – wie dem ANYmal-Quadruped – mit einer Genauigkeit von unter 0,1 % Fehler über Tausende von Zeitschritten vorhersagt. Durch eine roboterzentrierte Zustandsrepräsentation mit räumlicher Invarianz wird die Dateneffizienz erhöht und die Generalisierung verbessert. NeRD lässt sich nahtlos in bestehende Frameworks wie NVIDIA Warp integrieren und ermöglicht eine hybride Simulation, die sowohl klassische Physik als auch neuronale Vorhersagen kombiniert. Besonders bemerkenswert ist die Zero-Shot-Sim-to-Real-Transfer-Fähigkeit: Eine Policy, die nur in der Simulation trainiert wurde, konnte erfolgreich auf einem realen Franka-Roboter umgesetzt werden – ein entscheidender Schritt zur realen Anwendbarkeit. Ein weiterer Fortschritt ist Reference-Scoped Exploration (RSE), ein neuartiger Ansatz zur Übertragung menschlicher Bewegungen auf Roboterhände. Traditionelle Methoden erfordern mehrere Schritte wie Retargeting und Korrektur, was Fehler akkumuliert. RSE vereint diese Prozesse in einer einzigen Optimierungsschleife und behandelt menschliche Bewegungen nicht als starres Ziel, sondern als weiche Anleitung. So kann der Roboter seine eigene Körperlichkeit berücksichtigen und natürliche, anpassungsfähige Bewegungen entwickeln. Die Methode wurde an den Roboterhänden Inspire und Allegro getestet und erreichte bis zu 20 % höhere Erfolgsraten im Vergleich zu Best-Practice-Baselines. Ein zweiter Schritt nutzt eine visionbasierte generative Steuerungspolitik, die aus einer Zustandsbasierten Imitationspolitik abgeleitet wird und mit nur einer Tiefenkamera und spärlichen Zielangaben arbeitet – ideal für realitätsnahe Anwendungen. Der dritte Ansatz, VT-Refine, löst die Herausforderung der bimanuellen Montage, bei der visuelle und taktile Rückmeldung entscheidend sind. Der Ansatz kombiniert eine kleine Anzahl realer Demonstrationen (etwa 30 Episoden) mit einer digitalen Zwillingssimulation, in der eine visuo-taktile Diffusionspolitik durch Reinforcement Learning (RL) verfeinert wird. Dabei wird die Tastempfindung mit TacSL, einer GPU-basierten Tastsimulation, realistisch nachgebildet. Die Eingabedaten umfassen Tiefenpunktwolken, Tastsensorinformationen und Gelenkpositionen. Die RL-Verfeinerung führt zu einer signifikanten Leistungssteigerung: Bei rein visueller Steuerung um 20 %, bei visuo-taktilem Ansatz sogar um 40 % – mit nur einem geringen Rückgang der Sim-to-Real-Übertragung von 5–10 %. Dies stellt einen Meilenstein in der RL-basierten Sim-to-Real-Transferierung für komplexe, kontaktreiche Aufgaben dar. Diese drei Innovationen zeigen, wie neuronale Modelle die Roboterlernfähigkeit erheblich verbessern: durch genauere Simulation, intelligente Übertragung menschlicher Bewegung und integrierte multimodale Wahrnehmung. Sie bilden die Grundlage für eine neue Generation von Robotern, die sich schneller, flexibler und realitätsnaher anpassen können. Industrieexperten sehen in diesen Entwicklungen einen Wendepunkt für die industrielle Automatisierung und Service-Robotik. NeRD könnte die Entwicklungskosten für komplexe Roboter reduzieren, RSE ermöglicht die Skalierung dexteröser Manipulation, und VT-Refine eröffnet neue Möglichkeiten für präzise Montage in der Fertigung. NVIDIA positioniert sich damit weiter als führender Player im Bereich des physikalischen KI- und Robotik-Engineering. Die Forschung wird im Rahmen des BEHAVIOR-Challenges 2025 weiter ausgebaut – mit 50 Haushaltsaufgaben und 10.000 teleoperierten Demonstrationen als Benchmark. Entwickler können sich über kostenlose Kurse und aktuelle Updates auf NVIDIA Developer, YouTube und Discord informieren.
