HyperAIHyperAI

Command Palette

Search for a command to run...

7x schnellere KI-Modelle auf Jetson AGX Thor durch Software-Optimierung und Quantisierung

NVIDIA hat mit dem Jetson AGX Thor eine bahnbrechende Leistung für generative KI am Edge vorgestellt, die durch kontinuierliche Softwareoptimierungen eine bis zu 7-fache Steigerung der generativen KI-Throughput im Vergleich zum Launch im August 2025 erreicht. Ursprünglich bereits mit bis zu 5x mehr Leistung gegenüber dem Jetson AGX Orin angekündigt, hat NVIDIA die Performance durch Updates wie die neueste vLLM-Container-Version um weitere 3,5x gesteigert – bei gleichbleibender Modellgröße und Quantisierung. Benchmarktests zeigen beispielsweise, dass Llama 3.3 70B von 41,5 auf 126,4 Ausgabetoken pro Sekunde steigerte, während DeepSeek R1 70B von 40,2 auf 115,3 stieg. Mit der Integration von EAGLE-3-Spekulativer Dekodierung (speculative decoding) in vLLM erreicht man sogar eine 7x-Steigerung: Bei Llama 3.3 70B (W4A16) wurden 88,62 Tokens pro Sekunde erzielt – ein enormer Fortschritt für Echtzeit-Anwendungen am Edge. Die Plattform unterstützt zudem moderne Quantisierungsformate wie NVFP4 aus der Blackwell-Architektur und W4A16, bei dem 4-Bit-Gewichte mit 16-Bit-Aktivierungen kombiniert werden. Dies ermöglicht die Ausführung von Modellen mit über 175 Milliarden Parametern direkt auf dem Jetson Thor, inklusive mehrerer großer Modelle gleichzeitig. FP8 eignet sich als erste Optimierungsstufe mit minimaler Genauigkeitsverlust (unter 1 %), während W4A16 die höchste Geschwindigkeit und geringste Speicherbelastung bietet – ideal für die meisten Edge-Anwendungen. Für anspruchsvolle Aufgaben wie Code-Generierung oder komplexe Schlussfolgerungen kann auf FP8 umgestiegen werden, wenn die Genauigkeit nicht ausreicht. Spekulative Dekodierung beschleunigt die Inferenz, indem ein kleiner, schneller „Draft-Modell“ vorausschauend Token generiert, die dann vom großen, präzisen Zielmodell in einem Durchlauf validiert werden. Mit EAGLE-3 erreicht man hier eine 2,5-fache Steigerung bei Llama 3.3 70B (W4A16). Die Effizienz hängt stark von der Annahmehr rate ab, weshalb die Auswahl des Draft-Modells entscheidend ist – idealerweise architektonisch ähnlich zum Zielmodell oder speziell für den Anwendungsfall angepasst. Durch die Kombination von W4A16-Quantisierung und EAGLE-3-Spekulation wird die Leistung maximal ausgeschöpft. NVIDIA bietet hierfür einen monatlich aktualisierten vLLM-Container an, der die Einrichtung vereinfacht. Entwickler können bereits am Tag der Veröffentlichung (Day 0) mit Modellen wie gpt-oss oder NVIDIA Nemotron-Modellen arbeiten. Die Empfehlung lautet: Zunächst eine Qualitätssicherung mit FP16 oder FP8, dann schrittweise Quantisierung bis zur akzeptablen Genauigkeit, gefolgt von Benchmarking mit realistischen Workloads. Industrieexperten loben die strategische Kombination aus Hardware- und Softwareoptimierung als Schlüssel für die Realisierung von leistungsstarken Edge-KI-Systemen. NVIDIA Jetson AGX Thor positioniert sich damit als führende Plattform für verteilte, reaktionsfähige KI-Anwendungen in Robotik, industrieller Automatisierung und Smart Cities. Mit JetPack 7 und dem neuen Entwicklerkit steht eine umfassende, leicht zugängliche Ökosystem bereit, das Entwicklern den Einstieg in die nächste Generation der Edge-KI erleichtert.

Verwandte Links