NVIDIA stellt neues TensorRT Edge-LLM vor und treibt physikalische KI sowie autonome Roboter voran
NVIDIA hat mit der neuesten Version von TensorRT Edge-LLM wesentliche Fortschritte bei der Entwicklung von physischer Künstlicher Intelligenz für autonome Fahrzeuge und Robotik erzielt. Die aktuelle Herausstellung verschiebt den Fokus von der bloßen Ausführung großer Sprachmodelle hin zur Ermöglichung hochpräziser Reasoning-Fähigkeiten, Echtzeit-Multimodal-Interaktion und Trajektorienplanung innerhalb strenger Leistungsbudgets. Diese neue Runtime-Umgebung ist speziell für die NVIDIA DRIVE AGX Thor und NVIDIA Jetson Thor Plattformen optimiert und stellt Entwickler entscheidende Werkzeuge zur Verfügung. Ein Kernaspekt der Aktualisierung ist die vollständige Unterstützung von Mixture-of-Experts (MoE) Architekturen direkt am Edge. Modelle wie Qwen3 MoE nutzen dieses Konzept, indem sie pro Token nur eine Teilmenge an Parametern aktivieren. Dies ermöglicht Geräten mit begrenzter Rechenleistung den Zugriff auf die Intelligenz massiver Modelle, während Latenz und Stromverbrauch auf dem Niveau kleinerer Modelle gehalten werden. Dadurch können autonome Systeme signifikant intelligenter gemacht werden, ohne die für Echtzeiteinsätze kritischen Grenzwerte zu überschreiten. Darüber hinaus bietet TensorRT Edge-LLM nun native Unterstützung für das Nemotron 2 Nano Modell. Dieses nutzt eine neuartige Hybridarchitektur aus Mamba-2 und Transformer, um den Speicherbedarf durch effizientere Verarbeitung von Kontextfenstern drastisch zu reduzieren. Entwickler können damit sogenannte System-2-Reasoning-Fähigkeiten auf eingebetteten Chips einsetzen, was für komplexe Dialogsysteme in Fahrzeugen oder Roboteragenten essenziell ist. Das Modell kann nahtlos zwischen tiefgehender logischer Analyse und schneller Konversation wechseln, was den Speicherbedarf senkt und die Reaktionsschnelligkeit erhöht. Die multimodale Verarbeitung wurde ebenfalls verbessert. Durch die Integration von Qwen3-TTS und Qwen3-ASR ermöglicht die Software eine Ende-zu-Ende-Sprachverarbeitung mit einer Thinker-Talker-Architektur. Im Gegensatz zu herkömmlichen Kaskaden aus separaten Modellen für Spracherkennung, Sprachverarbeitung und Sprachsynthese reduziert dieser Ansatz die Latenz erheblich. In autonomen Fahrzeugen ermöglicht dies nahtlose, unterbrechbare Gespräche zwischen Fahrer und Fahrzeug, während Roboter natürliche Sprachinteraktionen realisieren können. Für humanoider Roboter und visionbasierte Agenten bringt die Unterstützung des offenen Modells Cosmos Reason 2 neue Möglichkeiten. Dieses Modell vermittelt physisches Allgemeinwissen und ermöglicht es Robotern, Weltzustände durch logische Schlussfolgerungen und Vorwissen zu verstehen, ohne manuelle Annotation. Beschleunigt durch die Laufzeit können Roboter komplexe physikalische Szenarien in Echtzeit bewerten und sichere Aktionspläne erstellen. Im Bereich des autonomen Fahrens markiert die Integration der NVIDIA Alpamayo-Modelle einen Paradigmenwechsel. Der Übergang von modularen Systemen zu Ende-zu-Ende-VLA-Modellen erlaubt es den Fahrzeugen, nicht nur Szenen zu beschreiben, sondern präzise Trajektorien zu planen. Alpamayo nutzt eine vereinfachte Version der Cosmos Reason-Backbone, um Kausalketten zu generieren, bevor Aktionen ausgeführt werden. Dies stellt eine signifikante Steigerung gegenüber Standard-VLMs dar und fördert sicherere, transparentere und reasoning-basierte autonome Systeme. TensorRT Edge-LLM ist als Open-Source-Lösung in reiner C++-Sprache konzipiert, um Abhängigkeiten von Python zu eliminieren und damit vorhersehbare Speichereffizienz sowie Determinismus für sicherheitskritische Anwendungen zu gewährleisten. Entwickler können die neuen Funktionen sowie Beispiele für MoE und Alpamayo bereits über das GitHub-Repository von NVIDIA oder durch die neuesten DriveOS-Versionen nutzen.
