HyperAI

NVIDIA hat das Nemotron 3 Nano 4B vorgestellt, ein kompaktes Hybridmodell für die effiziente lokale künstliche Intelligenz. Als jüngstes Mitglied der Nemotron-3-Familie nutzt es eine Architektur, die Mamba- und Transformer-Komponenten kombiniert, um sowohl Geschwindigkeit als auch Genauigkeit bei begrenzten Ressourcen zu gewährleisten. Mit nur vier Milliarden Parametern ist das Modell so schlank, dass es direkt an den Rand (Edge) von Geräten ausgeführt werden kann, einschließlich NVIDIA Jetson-Plattformen wie Jetson Thor oder Jetson Orin Nano, sowie DGX Spark und GeForce RTX-Grafikkarten. Diese Dezentralisierung ermöglicht schnellere Antwortzeiten, verbesserte Datensicherheit durch lokale Verarbeitung und reduzierte Inferenzkosten. Das Modell wurde speziell für die Einbindung in Geräte optimiert und dient als Basis für lokale conversational Agents und digitale Persönlichkeiten. Durch die Verwendung der Nemotron Elastic-Technologie wurde das 9B-Modell Nemotron Nano 9B v2 gestrafft und distilliert. Ein integrierter Router entscheidet dabei strukturiert über das Weglassen bestimmter Netzwerkachsen, um die Zielgröße von vier Milliarden Parametern zu erreichen. Dies umfasst Reduktionen in der Tiefe des Netzwerks, der Anzahl der Mamba-Köpfe sowie der Dimensionen der Feed-Forward-Netze. Anstatt das Modell komplett neu zu trainieren, ermöglicht dieser Ansatz eine Kosteneffizienz, die deutlich unter dem Aufwand für ein Training von Grund auf liegt. Zur Sicherung der Leistungsfähigkeit durchlief das Modell eine zweistufige Distanzierung. Zunächst wurde es mit einem kurzen Kontextfenster von 8.000 Token trainiert, um die Basisgenauigkeit wiederherzustellen. Im zweiten Schritt wurde das Kontextfenster auf 49.000 Token erweitert, um komplexe Aufgaben mit langen Denkketten zu bewältigen. Anschließend erfolgten zwei Phasen des überwachten Feinabstimmens (SFT), um Fähigkeiten in Bereichen wie Mathematik, Programmieren und Anweisungsfolgen zu schärfen, gefolgt von einer mehrstufigen Verstärkungslern-Pipeline (RL), die das Werkzeuggebrauchverhalten und die agentic Fähigkeiten optimiert. Für den Einsatz auf Edge-Geräten wurden verschiedene Quantisierungsmethoden angewendet. Das Modell ist sowohl als FP8-Modell für NVIDIA-Hardware als auch als Q4_K_M GGUF-Format für Llama.cpp verfügbar. Durch eine selektive Quantisierung, bei der bestimmte Aufmerksamkeitsschichten in höherer Präzision belassen wurden, konnte die Genauigkeit im Vergleich zum BF16-Modell vollständig wiederhergestellt werden. Die FP8-Version zeigt auf DGX Spark und Jetson Thor eine bis zu 1,8-fache Verbesserung bei Latenz und Durchsatz. Auf Jetson Orin Nano mit 8 GB Arbeitsspeicher erreicht das Q4_K_M-Format sogar 18 Tokens pro Sekunde, was eine deutlich höhere Effizienz als das Vorgängermodell 9B v2 darstellt. Das Nemotron 3 Nano 4B ist ein quelloffenes Modell, das Entwicklern die Flexibilität bietet, es für spezifische Anwendungsfälle anzupassen. Es steht über verschiedene Inferenz-Engines wie Transformers, vLLM und TRT-LLM zur Verfügung und kann über Hugging Face heruntergeladen werden. Für Jetson-Nutzer gibt es detaillierte Anleitungen und vorgefertigte Befehle. Zudem kann die NVIDIA In-Game Inferencing (NVIGI) SDK genutzt werden, um die Leistung bei gleichzeitiger Grafikverarbeitung zu beschleunigen. Das Modell setzt damit einen neuen Maßstab für leistungsfähige, ressourcenschonende KI-Lösungen auf lokalen Geräten.

Verwandte Links

Verwandte Links

Verwandte Links

Command Palette

Nvidia bringt kompaktes Nemotron 3 Nano für lokale KI

Verwandte Links

Command Palette

Nvidia bringt kompaktes Nemotron 3 Nano für lokale KI

Verwandte Links

Command Palette

Nvidia bringt kompaktes Nemotron 3 Nano für lokale KI

Verwandte Links