vor 14 Stunden

Jet-Nemotron: Effizientes Sprachmodell mit nachgeschalteter neuronaler Architektursuche

Yuxian Gu, Qinghao Hu, Shang Yang, Haocheng Xi, Junyu Chen, Song Han, Han Cai

Abstract

Wir stellen Jet-Nemotron vor, eine neue Familie hybrider Sprachmodelle mit hybrider Architektur, die die Genauigkeit führender vollständig-attention-basierter Modelle erreicht oder übertreffen, gleichzeitig jedoch die Generierungsdurchsatzleistung erheblich steigert. Jet-Nemotron wurde mithilfe von Post Neural Architecture Search (PostNAS) entwickelt, einem neuartigen Pipeline-Ansatz zur Exploration neuronaler Architekturen, der eine effiziente Modellgestaltung ermöglicht. Im Gegensatz zu vorherigen Ansätzen beginnt PostNAS mit einem vortrainierten vollständig-attention-basierten Modell und fixiert dabei die MLP-Gewichte, wodurch eine effiziente Exploration verschiedener Attention-Block-Architekturen möglich wird. Die Pipeline besteht aus vier zentralen Komponenten: (1) Optimierung der Platzierung und Eliminierung vollständig-attention-basierter Schichten, (2) Auswahl linearer Attention-Blöcke, (3) Entwicklung neuer Attention-Block-Architekturen und (4) hardwarebewusste Hyperparameter-Suche. Unser Jet-Nemotron-2B-Modell erreicht in einer umfassenden Reihe von Benchmarks vergleichbare oder bessere Genauigkeit als Qwen3, Qwen2.5, Gemma3 und Llama3.2, während es gleichzeitig bis zu 53,6-fach höhere Generierungsdurchsatzgeschwindigkeit und 6,1-fach höhere Prefilling-Geschwindigkeit bietet. Zudem erzielt es eine höhere Genauigkeit auf MMLU und MMLU-Pro als neuere fortschrittliche MoE-Modelle mit vollständiger Attention-Architektur wie DeepSeek-V3-Small und Moonlight, obwohl letztere eine größere Skalierung mit insgesamt 15 Milliarden Parametern und 2,2 Milliarden aktivierten Parametern aufweisen.