Un simple truc, un saut qualitatif : la révolution de la gating attention chez Qwen à NeurIPS 2025
Le NeurIPS 2025, l’un des sommets mondiaux de l’intelligence artificielle, s’est tenu du 30 novembre au 7 décembre 2025 au centre de conférence de San Diego, en Californie. Cette édition a marqué un tournant en termes d’ampleur, avec 21 575 soumissions validées, en hausse de près de 80 % en deux ans par rapport à 2023. L’affluence en personne, proche de la capacité maximale des salles, reflète l’intensité croissante du « rush d’or » de l’IA. Cette année, le renforcement par apprentissage (reinforcement learning) a dominé les débats, marquant un tournant vers l’optimisation fine des modèles pour des usages spécifiques, au détriment de la simple montée en taille. Google DeepMind a émergé comme un acteur central, avec des avancées en apprentissage continu et en apprentissage imbriqué, renforçant sa position de leader. L’exposition a regroupé des géants comme Ant Group, Apple, ByteDance, Tesla, Microsoft, ainsi que des acteurs financiers majeurs (Citadel, Jane Street, D. E. Shaw) et des fournisseurs d’infrastructure (Lambda, Ollama, Poolside). L’ambiance festive, marquée par des after-parties exclusives, a renforcé le statut de rockstar des chercheurs, illustré par la présence de figures emblématiques comme Geoffrey Hinton. Le prix du meilleur papier a été attribué à l’équipe Qwen pour son travail pionnier : « Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free ». Ce papier, reconnu pour sa rigueur et son impact, comble un manque fondamental dans la compréhension de l’attention dans les modèles de langage. L’attention, cœur du mécanisme transformer, permet aux tokens d’interagir indépendamment de leur position, mais souffre souvent du phénomène dit « d’attention sink », où le premier token capte la majorité du poids d’attention, entraînant des instabilités numériques et une dégradation des performances. La contribution clé de Qwen réside dans une étude systématique de la gating attention, une modulation dynamique appliquée au résultat de l’attention (SDPA). L’équipe montre que placer un module de gating après le calcul de l’attention (configuration G1), avec une activation sigmoïde et une multiplication élément par élément, produit des gains significatifs : meilleure stabilité d’entraînement, tolérance à des taux d’apprentissage plus élevés, suppression des pics de perte et réduction du phénomène d’attention sink. Cette architecture induit une sparsité d’activation (la plupart des poids de gating sont proches de zéro), ce qui améliore l’efficacité et la robustesse. Un autre apport majeur est la possibilité d’extension de la longueur de contexte sans re-entraînement complet. En modifiant le paramètre de base des embeddings rotationnels (RoPE) de 10k à 1M, puis en appliquant YaRN (Yet Another RoPE eNhancement), le modèle peut atteindre 128k tokens tout en maintenant des performances stables. L’analyse révèle que le modèle avec gating est moins dépendant des schémas d’attention appris (comme l’attention sink), ce qui le rend plus robuste aux changements de géométrie positionnelle. L’implémentation expérimentale confirme que le gating par multiplication (plutôt que par addition), le choix d’un sigmoïde (meilleur que SiLU), et surtout le gating par tête (pas partagé) sont les facteurs les plus critiques. Le coût computationnel est négligeable (<2 % de latence supplémentaire), rendant cette approche très accessible. Enfin, la décision de Qwen de publier librement ses résultats et code est particulièrement louable dans un contexte où la recherche en IA tend à se cloisonner. Ce travail ne se contente pas d’une amélioration technique : il offre une compréhension profonde des dynamiques d’apprentissage, ouvrant la voie à de nouvelles architectures plus stables, plus efficaces et mieux adaptées aux contextes longs. Il s’agit d’un exemple emblématique de recherche ouverte qui accélère l’avancement collectif du domaine. Évaluation des experts : Les chercheurs du domaine soulignent que cette étude « redéfinit les fondations de l’attention » et que son impact sera immédiat dans les pipelines de développement de modèles. Des équipes comme Meta, Anthropic et Alibaba ont déjà commencé à intégrer ces principes. L’approche de Qwen est vue comme une étape clé vers des modèles plus robustes, moins sensibles aux artefacts d’entraînement, et mieux adaptés aux applications réelles. Son succès témoigne de l’importance croissante des recherches fondamentales dans un écosystème dominé par la scalabilité.
