HyperAIHyperAI
il y a 10 jours

Llama-Nemotron : modèles de raisonnement efficaces

Akhiad Bercovich, Itay Levy, Izik Golan, Mohammad Dabbah, Ran El-Yaniv, Omri Puny, Ido Galil, et al
Llama-Nemotron : modèles de raisonnement efficaces
Résumé

Nous présentons la série de modèles Llama-Nemotron, une famille ouverte de modèles de raisonnement hétérogènes offrant des capacités exceptionnelles en raisonnement, une efficacité d’inférence élevée et une licence ouverte adaptée à une utilisation par les entreprises. Cette série se décline en trois tailles — Nano (8 milliards de paramètres), Super (49 milliards) et Ultra (253 milliards) — et se distingue par des performances concurrentielles par rapport aux modèles de raisonnement de pointe, tels que DeepSeek-R1, tout en offrant un débit d’inférence supérieur et une efficacité mémoire améliorée. Dans ce rapport, nous détaillons la procédure d’entraînement de ces modèles, qui repose sur une recherche architecturale neuronale issue des modèles Llama 3 afin d’accélérer l’inférence, une distillation de connaissances, un pré-entraînement continu, suivis d’une phase de post-entraînement axée sur le raisonnement, composée de deux volets principaux : une adaptation par apprentissage supervisé et un apprentissage par renforcement à grande échelle. Les modèles Llama-Nemotron constituent les premiers modèles open source à supporter un commutateur dynamique de raisonnement, permettant aux utilisateurs de basculer en temps réel entre les modes conversationnel standard et mode raisonnement durant l’inférence. Afin de favoriser davantage la recherche ouverte et faciliter le développement des modèles, nous mettons à disposition les ressources suivantes : 1. Nous rendons disponibles les modèles de raisonnement Llama-Nemotron — LN-Nano, LN-Super et LN-Ultra — sous la licence NVIDIA Open Model License, une licence commercialement permissive. 2. Nous publions l’intégralité du jeu de données de post-entraînement : Llama-Nemotron-Post-Training-Dataset. 3. Nous rendons également accessibles nos codes d’entraînement : NeMo, NeMo-Aligner et Megatron-LM.