Qwen3.5 révolutionne l’attention avec un hybridation linéaire-pleine, bat des records en instruction-following et domine en vision multimodale
Le 16 février 2026, Alibaba a dévoilé Qwen3.5–397B-A17B, sa nouvelle génération de modèle fondamental, dans une vague de lancements pré-fériens qui inclut déjà GLM-5 (11 février), MiniMax M2.5 (11 février) et Kimi K2.5 (27 janvier). Ce modèle, basé sur une architecture Mixture-of-Experts (MoE) de 397 milliards de paramètres avec seulement 17 milliards actifs par jeton, se distingue par une innovation architecturale majeure : une attention hybride combinant Gated DeltaNet — une variante linéaire de l’attention inspirée du papier Gated Delta Networks: Improving Mamba2 with Delta Rule — et des couches d’attention pleine, selon un ratio 3:1. Cette approche permet une scalabilité quasi-linéaire avec la longueur des séquences, tout en maintenant des performances élevées sur des contextes longs. Le modèle, disponible via une API appelée Qwen3.5-Plus, intègre un contexte de 1 million de tokens, des outils intégrés et une utilisation adaptative des outils. Une autre avancée clé est la vision-langage unifiée : contrairement à Qwen3, Qwen3.5 est multimodal natif, avec une fusion précoce des données visuelles et textuelles, sans besoin d’adaptateur séparé. Il excelle en compréhension visuelle, notamment avec des scores de 85,0 sur MMMU, 88,6 sur MathVision et 90,8 sur OmniDocBench, dépassant même Gemini 3 Pro et GPT-5.2 sur plusieurs benchmarks. Il supporte désormais 201 langues et dialectes, le plus large des modèles open source actuels, bien que la qualité varie selon la ressource linguistique. En termes de performance, Qwen3.5 se positionne comme un modèle remarquablement équilibré. Il ne domine pas une seule catégorie, mais excelle en suivis d'instructions : 76,5 sur IFBench (devant GPT-5.2 et Claude), 67,6 sur MultiChallenge. Sur les tâches agences, il obtient 86,7 sur Tau2-Bench (2e place derrière Claude) et 46,1 sur MCPMark, avec un résultat de 78,6 sur BrowseComp grâce à une stratégie de discrétion optimisée — soulignant que les performances agences dépendent autant de l’ingénierie de contexte que de la puissance brute du modèle. En codage, il se situe à 76,4 sur SWE-bench Verified, au niveau de K2.5 et Gemini 3 Pro, mais derrière GPT-5.2 et Claude. En mathématiques, 91,3 sur AIME 2026 et 94,8 sur HMMT Feb 25, compétitif mais non dominant. L’entraînement par renforcement à grande échelle, sur des environnements de million d’agents avec des tâches progressivement complexes, renforce sa capacité d’adaptation réelle. Cette stratégie s’inscrit dans la tendance des modèles agents, où les benchmarks évoluent vers des évaluations d’action, d’exploration et de gestion de contexte, au détriment des simples tests de conversation. Au-delà des performances, Qwen3.5 marque une nouvelle phase dans la bataille de l’attention : après le débat MoE vs dense, l’accent est désormais sur la manière de gérer l’attention — hybride (Qwen3.5, K2.5), entièrement linéaire (MiniMax), ou à sélection sparse (GLM-5). L’empreinte de DeepSeek (MLA, DSA) est visible, mais la solution de Qwen, basée sur le Gated DeltaNet, propose une voie originale. L’absence de versions plus petites au lancement suggère un déploiement progressif, probablement avec des variantes plus compactes adoptant la même architecture hybride. En résumé, Qwen3.5 n’est pas le plus fort dans chaque domaine, mais il incarne une avancée significative en termes d’équilibre, d’efficacité, de multimodalité et d’adaptabilité agente. Il confirme la montée en puissance de l’architecture hybride comme nouvelle norme pour les modèles fondamentaux de prochaine génération.
