NVIDIA NeMo AutoModel accélère le fine-tuning des Transformers
NVIDIA vient de publier NeMo AutoModel, une bibliothèque open source conçue pour accélérer l'entraînement des modèles à Experts en Mélange en s'appuyant sur Transformers v5 de Hugging Face. Cette extension vise à résoudre les goulots d'étranglement mémoire et computationnel liés à l'évolution des architectures MoE, désormais dominantes dans l'intelligence artificielle générative. NeMo AutoModel intègre directement la structure de Transformers v5, qui offre un support natif pour le chargement dynamique des poids et l'exécution distribuée. NVIDIA y ajoute trois optimisations majeures : la parallélisation d'experts, le dispatch DeepEP fusionnant communication et calcul, et les noyaux TransformerEngine. La compatibilité API reste totale. Les développeurs modifient uniquement une ligne d'importation pour bénéficier d'accélérations significatives. Les tests révèlent des gains substantiels. Lors du réglage fin de modèles de 30 milliards de paramètres sur huit GPU H100, NeMo AutoModel atteint un débit d'entraînement 3,4 à 3,7 fois supérieur et réduit l'occupation mémoire de 29 à 32 % par rapport à Transformers v5. La parallélisation répartit les poids sur plusieurs cartes, DeepEP élimine les latences de routage des tokens, et TransformerEngine optimise les couches d'attention et linéaires. L'avantage se confirme à très grande échelle. Pour le réglage fin complet du modèle Nemotron 3 Ultra de 550 milliards de paramètres sur seize nœuds, la répartition des experts est indispensable. La configuration native de Transformers v5 y atteint ses limites mémoire, tandis que NeMo AutoModel maintient le modèle dans les contraintes matérielles disponibles. La conception privilégie la compatibilité avec l'écosystème open source. Les conversions de poids sont réversibles, garantissant des exports au format standard Hugging Face. Ces modèles s'intègrent ainsi directement dans des outils d'inférence comme vLLM ou SGLang sans conversion supplémentaire. Cette approche permet aux équipes de concentrer leurs efforts sur l'optimisation des architectures plutôt que sur l'infrastructure sous-jacente. Les sources et les scripts de benchmark sont accessibles à la communauté.
