HyperAIHyperAI

Command Palette

Search for a command to run...

Jet-Nemotron: Effizientes Sprachmodell mit nachgeschalteter neuronaler Architektursuche

Yuxian Gu Qinghao Hu Shang Yang Haocheng Xi Junyu Chen Song Han Han Cai

Zusammenfassung

Wir stellen Jet-Nemotron vor, eine neue Familie hybrider Sprachmodelle mit hybrider Architektur, die die Genauigkeit führender vollständig-attention-basierter Modelle erreicht oder übertreffen, gleichzeitig jedoch die Generierungsdurchsatzleistung erheblich steigert. Jet-Nemotron wurde mithilfe von Post Neural Architecture Search (PostNAS) entwickelt, einem neuartigen Pipeline-Ansatz zur Exploration neuronaler Architekturen, der eine effiziente Modellgestaltung ermöglicht. Im Gegensatz zu vorherigen Ansätzen beginnt PostNAS mit einem vortrainierten vollständig-attention-basierten Modell und fixiert dabei die MLP-Gewichte, wodurch eine effiziente Exploration verschiedener Attention-Block-Architekturen möglich wird. Die Pipeline besteht aus vier zentralen Komponenten: (1) Optimierung der Platzierung und Eliminierung vollständig-attention-basierter Schichten, (2) Auswahl linearer Attention-Blöcke, (3) Entwicklung neuer Attention-Block-Architekturen und (4) hardwarebewusste Hyperparameter-Suche. Unser Jet-Nemotron-2B-Modell erreicht in einer umfassenden Reihe von Benchmarks vergleichbare oder bessere Genauigkeit als Qwen3, Qwen2.5, Gemma3 und Llama3.2, während es gleichzeitig bis zu 53,6-fach höhere Generierungsdurchsatzgeschwindigkeit und 6,1-fach höhere Prefilling-Geschwindigkeit bietet. Zudem erzielt es eine höhere Genauigkeit auf MMLU und MMLU-Pro als neuere fortschrittliche MoE-Modelle mit vollständiger Attention-Architektur wie DeepSeek-V3-Small und Moonlight, obwohl letztere eine größere Skalierung mit insgesamt 15 Milliarden Parametern und 2,2 Milliarden aktivierten Parametern aufweisen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp