HyperAIHyperAI

Command Palette

Search for a command to run...

Qwen3-Next dévoile une architecture révolutionnaire : attention hybride et MoE à haute sparsité pour une inférence ultra-rapide

Le modèle Qwen3-Next, récemment intégré dans la bibliothèque Transformers, représente une avancée significative dans l’optimisation des architectures de modèles de langage pour l’inference. Son innovation centrale repose sur une combinaison de deux mécanismes clés : une attention hybride et une architecture MoE à haute éclatement (sparsity). Ces améliorations visent à réduire drastiquement la complexité computationnelle tout en maintenant des performances élevées, particulièrement pour les séquences longues. L’attention hybride repose sur une structure en deux parties : trois couches basées sur Gated DeltaNet et une seule couche utilisant Gate SoftmaxAttention. Gated DeltaNet, au cœur de cette architecture, remplace l’attention classique O(n²) par un mécanisme linéaire O(n) grâce à une approche inspirée des réseaux récurrents. Le processus commence par une projection linéaire de l’entrée, suivie du calcul de deux paramètres : β (via une fonction sigmoïde) et g (via une formule combinant un poids apprenable et un biais). Ces valeurs permettent de modéliser dynamiquement l’état de mémoire clé-valeur à l’aide d’une mise à jour récurrente basée sur les deltas. Une convolution 1D causale est appliquée pour capter les contextes locaux, tout en préservant la forme des tenseurs. L’attention centrale est alors calculée en multipliant l’état récurrent mis à jour par la requête, évitant ainsi le produit matriciel coûteux QK^T. Cette approche, bien que simple en conception, permet une réduction drastique de la complexité sans perte significative de performance. La structure hybride adopte un ratio 3:1 entre Gated DeltaNet et Gate SoftmaxAttention, un compromis établi après des expérimentations systématiques. Cette combinaison permet de bénéficier de l’efficacité de l’attention linéaire pour les longues séquences tout en conservant la capacité de rappel fine de l’attention standard. Qwen3-Next démontre ainsi que l’attention linéaire seule est trop faible en expressivité, tandis que l’attention classique reste coûteuse à l’inference — l’hybridation apparaît donc comme une solution incontournable, partagée par des acteurs comme Google (Infini-Attention) ou MiniMax (Lightning Attention). Par ailleurs, l’architecture MoE (Mixture of Experts) de Qwen3-Next atteint une sparsity de seulement 3,7 % des paramètres actifs à l’inference, soit l’un des niveaux les plus bas du marché. Une innovation majeure est l’ajout d’un « expert partagé » qui traite toutes les entrées, offrant une base stable de traitement général. Cette conception en double voie — expert partagé pour les tâches fondamentales, experts rares pour les connaissances spécialisées — rappelle un système de consultation médicale, où un généraliste traite les cas courants et des spécialistes interviennent pour des cas complexes. Cette architecture renforce la robustesse et la stabilité du modèle. Enfin, Qwen3-Next intègre la technique MTP (Multi-Token Prediction) pour accélérer l’inference, et adopte une version améliorée de RMSNorm appelée Zero-Centered RMSNorm. Cette dernière, en initialisant les paramètres de normalisation à zéro, évite les instabilités de gradient en début de formation, en particulier dans les couches profondes. Ce léger ajustement a un impact significatif sur la stabilité d’entraînement. En résumé, Qwen3-Next incarne une tendance majeure dans le développement des grands modèles : l’optimisation pour l’inference. Grâce à son attention hybride, son MoE à haute sparsity et ses améliorations de normalisation, il établit un nouveau standard pour les modèles performants, efficaces et évolutifs. Cette architecture, qui équilibre performance et rapidité, illustre bien la direction future des modèles de langage, où l’efficacité computationnelle n’est plus un compromis, mais un objectif central.

Liens associés

Qwen3-Next dévoile une architecture révolutionnaire : attention hybride et MoE à haute sparsité pour une inférence ultra-rapide | Articles tendance | HyperAI