HyperAIHyperAI
il y a 14 heures

Jet-Nemotron : Modèle linguistique efficace basé sur une recherche post-architecturale neuronale

Yuxian Gu, Qinghao Hu, Shang Yang, Haocheng Xi, Junyu Chen, Song Han, Han Cai
Jet-Nemotron : Modèle linguistique efficace basé sur une recherche post-architecturale neuronale
Résumé

Nous présentons Jet-Nemotron, une nouvelle famille de modèles linguistiques à architecture hybride, qui atteint ou dépasse l’exactitude des modèles full-attention de pointe tout en améliorant significativement le débit de génération. Jet-Nemotron est développé grâce à PostNAS (Post Neural Architecture Search), une nouvelle pipeline d’exploration architecturale neuronale permettant une conception efficace des modèles. Contrairement aux approches antérieures, PostNAS part d’un modèle full-attention préentraîné dont les poids du bloc MLP sont gelés, ce qui permet une exploration efficace des architectures de blocs d’attention. La pipeline comporte quatre composants clés : (1) apprentissage du placement optimal et de l’élimination des couches full-attention, (2) sélection de blocs d’attention linéaire, (3) conception de nouveaux blocs d’attention, et (4) recherche hyperparamétrique prise en compte de l’architecture matérielle. Le modèle Jet-Nemotron-2B atteint une précision comparable ou supérieure à celle de Qwen3, Qwen2.5, Gemma3 et Llama3.2 sur une vaste gamme de benchmarks, tout en offrant une accélération du débit de génération allant jusqu’à 53,6 fois et une accélération du pré-remplissage jusqu’à 6,1 fois. Il obtient également une précision supérieure sur les benchmarks MMLU et MMLU-Pro par rapport à des modèles full-attention avancés à architecture MoE récents, tels que DeepSeek-V3-Small et Moonlight, malgré une taille plus réduite (15 milliards de paramètres au total, 2,2 milliards de paramètres activés).