HyperAIHyperAI

Command Palette

Search for a command to run...

Konsole
vor 17 Stunden

Nemotron 3 Nano: Offenes, effizientes Mixture-of-Experts-Hybrid-Modell aus Mamba-Transformer für agenzienbasiertes Schlussfolgern

NVIDIA

Nemotron 3 Nano: Offenes, effizientes Mixture-of-Experts-Hybrid-Modell aus Mamba-Transformer für agenzienbasiertes Schlussfolgern

Abstract

Wir stellen Nemotron 3 Nano 30B-A3B vor, ein Mixture-of-Experts-Modell, das eine hybride Architektur aus Mamba- und Transformer-Elementen kombiniert. Nemotron 3 Nano wurde auf 25 Billionen Text-Tokens vortrainiert, darunter über 3 Billionen neue, eindeutige Tokens im Vergleich zu Nemotron 2, gefolgt von einer überwachten Feinabstimmung und großskaliger Reinforcement-Learning-Optimierung in vielfältigen Umgebungen. Nemotron 3 Nano erreicht eine höhere Genauigkeit als die vorherige Generation, Nemotron 2 Nano, wobei pro Vorwärtsdurchlauf weniger als die Hälfte der Parameter aktiviert werden. Im Vergleich zu vergleichbaren offenen Modellen wie GPT-OSS 20B und Qwen3-30B-A3B-Thinking-2507 erzielt es eine bis zu 3,3-fach höhere Inferenz-Throughput-Rate, gleichzeitig ist es auf gängigen Benchmarks präziser. Nemotron 3 Nano zeichnet sich durch verbesserte agentele, reasoning- und Chat-Fähigkeiten aus und unterstützt Kontextlängen bis zu 1 Million Tokens. Wir stellen sowohl den vortrainierten Base-Checkpunkt Nemotron 3 Nano 30B-A3B als auch den nachtrainierten Checkpoint Nemotron 3 Nano 30B-A3B auf Hugging Face zur Verfügung.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp