HyperAI

NVIDIA hat mit TensorRT Edge-LLM eine neue, open-source C++-Bibliothek für die Inference von großen Sprachmodellen (LLMs) und multimodalen Sprachmodellen (VLMs) auf Edge-Geräten vorgestellt, speziell optimiert für autonome Fahrzeuge und Roboter. Im Gegensatz zu datenzentrischen Frameworks, die auf Durchsatz und Skalierbarkeit setzen, fokussiert sich TensorRT Edge-LLM auf die Anforderungen eingebetteter Systeme: niedrige Latenz, hohe Zuverlässigkeit und Offline-Betrieb. Die Plattform ist ab JetPack 7.1 für NVIDIA Jetson Thor und Teil der DRIVE AGX Thor-Software (DriveOS) verfügbar und unterstützt sowohl Automotive- als auch Robotics-Anwendungen. Das Framework zeichnet sich durch geringe Abhängigkeiten, minimalen Ressourcenverbrauch und eine schlank ausgelegte Architektur aus. Besondere Leistungsmerkmale wie EAGLE-3-Spekulative Dekodierung, NVFP4-Quantisierung und chunked Prefill ermöglichen effiziente, reaktionsfähige Inference auf ressourcenbeschränkten Plattformen. Bereits zahlreiche Partner nutzen die Technologie: Bosch integriert sie in seinen AI-powered Cockpit mit natürlichen Sprachinteraktionen, ThunderSoft baut sie in seine AIBOX-Plattform auf DRIVE AGX Orin ein, und MediaTek nutzt sie für den CX1 SoC, um Kabinen- und HMI-Anwendungen mit Echtzeitfähigkeit zu ermöglichen. Alle drei zeigen ihre Lösungen bei CES 2026. Die Arbeitsweise von TensorRT Edge-LLM umfasst drei Schritte: Python-basierte Modellexportierung in ONNX mit Quantisierung und LoRA-Unterstützung, Hardware-spezifische Engine-Buildung mittels TensorRT und eine C++-Runtime für die echte Inference auf dem Gerät. Die Runtime behandelt sowohl Prefill- als auch Decode-Phasen autoregressiver Modelle effizient. Entwickler können über GitHub die Quick-Start-Anleitung nutzen, um Modelle aus Hugging Face zu laden, zu konvertieren und auf Jetson AGX Thor oder DRIVE AGX Thor auszuführen. Für Nutzer von DRIVE AGX Thor ist das Framework Teil der DriveOS-Releases. Die Einführung von TensorRT Edge-LLM markiert einen entscheidenden Schritt in der Dezentralisierung künstlicher Intelligenz: LLMs und VLMs werden nicht mehr ausschließlich in der Cloud betrieben, sondern direkt im Fahrzeug oder Roboter, was Sicherheit, Privatsphäre und Reaktionsgeschwindigkeit verbessert. Branchenexperten loben die klare Fokussierung auf Embedded-Realität, insbesondere die Kombination aus Leistung, Effizienz und Open-Source-Transparenz. Die enge Integration mit Hugging Face und die Unterstützung moderner Techniken wie spekulative Dekodierung machen das Framework zu einer zukunftssicheren Basis für intelligentes On-Device-Intelligenz. NVIDIA positioniert sich damit als führender Anbieter für AI-Infrastruktur in der mobilen und autonomen Industrie, während Partner wie Bosch, MediaTek und ThunderSoft die technologische Umsetzung vorantreiben. Die Open-Source-Strategie fördert Innovation und Anpassungsfähigkeit, was die Akzeptanz in der Entwicklergemeinschaft weiter stärkt.

Verwandte Links

Verwandte Links

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Command Palette

NVIDIA stellt TensorRT Edge-LLM für schnelle KI-Infere n auf Fahrzeugen und Robotern vor

Verwandte Links

Command Palette

NVIDIA stellt TensorRT Edge-LLM für schnelle KI-Infere n auf Fahrzeugen und Robotern vor

Verwandte Links

Command Palette

NVIDIA stellt TensorRT Edge-LLM für schnelle KI-Infere n auf Fahrzeugen und Robotern vor

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.