HyperAI

il y a 3 jours

NVIDIA vient de publier NeMo AutoModel, une bibliothèque open source conçue pour accélérer l'entraînement des modèles à Experts en Mélange en s'appuyant sur Transformers v5 de Hugging Face. Cette extension vise à résoudre les goulots d'étranglement mémoire et computationnel liés à l'évolution des architectures MoE, désormais dominantes dans l'intelligence artificielle générative. NeMo AutoModel intègre directement la structure de Transformers v5, qui offre un support natif pour le chargement dynamique des poids et l'exécution distribuée. NVIDIA y ajoute trois optimisations majeures : la parallélisation d'experts, le dispatch DeepEP fusionnant communication et calcul, et les noyaux TransformerEngine. La compatibilité API reste totale. Les développeurs modifient uniquement une ligne d'importation pour bénéficier d'accélérations significatives. Les tests révèlent des gains substantiels. Lors du réglage fin de modèles de 30 milliards de paramètres sur huit GPU H100, NeMo AutoModel atteint un débit d'entraînement 3,4 à 3,7 fois supérieur et réduit l'occupation mémoire de 29 à 32 % par rapport à Transformers v5. La parallélisation répartit les poids sur plusieurs cartes, DeepEP élimine les latences de routage des tokens, et TransformerEngine optimise les couches d'attention et linéaires. L'avantage se confirme à très grande échelle. Pour le réglage fin complet du modèle Nemotron 3 Ultra de 550 milliards de paramètres sur seize nœuds, la répartition des experts est indispensable. La configuration native de Transformers v5 y atteint ses limites mémoire, tandis que NeMo AutoModel maintient le modèle dans les contraintes matérielles disponibles. La conception privilégie la compatibilité avec l'écosystème open source. Les conversions de poids sont réversibles, garantissant des exports au format standard Hugging Face. Ces modèles s'intègrent ainsi directement dans des outils d'inférence comme vLLM ou SGLang sans conversion supplémentaire. Cette approche permet aux équipes de concentrer leurs efforts sur l'optimisation des architectures plutôt que sur l'infrastructure sous-jacente. Les sources et les scripts de benchmark sont accessibles à la communauté.

Cette actualité est agrégée par l’IA afin de fournir efficacement des mises à jour sur le secteur. Elle ne constitue ni une opinion ni un conseil.

Liens associés

Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel

Unknown Source

HyperAI

il y a 3 jours

LLM

Transformer

Entraînement Du Modèle

Cette actualité est agrégée par l’IA afin de fournir efficacement des mises à jour sur le secteur. Elle ne constitue ni une opinion ni un conseil.

Liens associés

Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel

Unknown Source

HyperAI

il y a 3 jours

LLM

Transformer

Entraînement Du Modèle

Cette actualité est agrégée par l’IA afin de fournir efficacement des mises à jour sur le secteur. Elle ne constitue ni une opinion ni un conseil.

Liens associés

Accelerating Transformers Fine-Tuning with NVIDIA NeMo AutoModel

Unknown Source

Liens associés

Liens associés

Liens associés

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Command Palette

NVIDIA NeMo AutoModel accélère le fine-tuning des Transformers

Liens associés

Command Palette

NVIDIA NeMo AutoModel accélère le fine-tuning des Transformers

Liens associés

Command Palette

NVIDIA NeMo AutoModel accélère le fine-tuning des Transformers

Liens associés

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.

Sortie d'image En 4 étapes/qualité 4K/accélération 6x, PiD Utilise La Diffusion De Pixels Pour Unifier Le Décodage Et La Sortie Super-résolution ; SA-3DAO : Un Ensemble De Données Contenant 1 000 Paires d'images Réelles Associées À Des Maillages 3D Fabriqués À La Main Par Des artistes.