Kimi K2.5 après deux semaines : une révolution agent swarm ou une surconsommation de tokens ?
Kimi K2.5, lancé par Moonshot AI le 27 janvier 2026, représente une avancée significative dans les modèles ouverts à grande échelle, notamment grâce à son architecture ambitieuse et à son approche novatrice de l’agent swarm. Avec 1,04 trillion de paramètres et 32 milliards activés par jeton, il dépasse largement des concurrents comme MiniMax-M2.5 (230B-A10B), Qwen3.5 (397B-A17B) et GLM-5 (1T-32B). Basé sur la même architecture que Kimi K2 (mi-2025), il tire son efficacité de sa formation étendue : 15T de tokens textuels préalables, puis 15T supplémentaires mixtes visuel-textuel, 1T pour l’entraînement du ViT et 700B pour le contexte long. Le modèle utilise un encodage visuel MoonViT-3D (400M paramètres), une stratégie NaViT pour les images à résolution variable, et une fusion précoce pour le traitement vidéo (regroupement par 4 cadres, compression 4x). Il fonctionne en INT4 natif (~595 Go), mais peut être quantifié à 1,8 bit via Unsloth, réduisant la mémoire à ~240 Go, exécutable sur une seule GPU de 24 Go avec échange mémoire. Le point le plus innovant est le « Agent Swarm », piloté par un cadre de réinforcement par apprentissage parallèle (PARL). Contrairement aux agents séquentiels, K2.5 décompose les tâches en sous-tâches parallélisables, délégant à des sous-agents gelés (copies de checkpoints intermédiaires), tandis que seul l’orchestrateur est entraîné. Ce design évite le problème d’attribution de crédit entre orchestrateur et agents. Deux défauts émergents ont été corrigés : la « collapsation séquentielle » (préférence pour l’exécution séquentielle) et la « parallélisation spuriante » (multiplication inutile d’agents). Des récompenses auxiliaires ont permis de surmonter ces issues. Les résultats sont probants : BrowseComp passe de 60,6 % à 78,4 %, WideSearch F1 de 72,7 % à 79,0 %, et le temps d’exécution baisse de 3 à 4,5 fois. Bien que Qwen3.5 atteigne 78,6 % sans swarm, K2.5 est le premier modèle ouvert à intégrer ce mécanisme d’apprentissage interne. En termes de benchmarks, K2.5 excelle dans plusieurs domaines : HLE-Full avec outils (50,2 % vs. 45,5 % pour GPT-5.2), OCRBench (92,3 %), MathVista (90,1 %), InfoVQA (92,6 %). Il est compétitif sur AIME 2025 (96,1 %), SWE-Bench Verified (76,8 %) et GPQA-Diamond (87,6 %), mais reste en retard sur WeirdML (46 % vs. 72 % pour GPT-5.2) et sur l’indice de connaissance AA-Omniscience (-11, contre +10 pour Claude Opus 4.5). Son index d’intelligence reste élevé face à Qwen3.5 et MiniMax-M2.5. Les retours de la communauté confirment une forte performance en codage, surtout pour les interfaces front-end et la génération de code à partir d’images. Des développeurs rapportent des projets complets à 1/8 du coût d’Opus. Toutefois, le modèle produit souvent du code verbeux au premier jet, nécessitant des ajustements. L’Agent Swarm fonctionne bien pour la recherche web parallèle, mais les sorties nécessitent un post-traitement lourd, et les sous-agents peuvent diverger sur les définitions partagées (ex. : colonnes de tableaux). En vision, K2.5 égale Gemini 3 Pro sur la transcription de documents chinois, tandis que Qwen3.5 excelle en MathVista (90,3) et compréhension d’interfaces. En revanche, la créativité et la personnalité sont en retard sur Opus, et certains utilisateurs ont observé des auto-identification erronées (ex. : se nommer Claude), signalant une provenance possible des données d’entraînement. Un point critique est la verbosité : K2.5 génère 89 millions de tokens en moyenne, soit 6 fois plus que la moyenne. Même avec des prix bas (0,60–3,00 $/M tokens), les coûts réels augmentent fortement. L’essai gratuit de Kilo Code a révélé une consommation de plus de 50 milliards de tokens/jour, annulant les gains de cache. De plus, l’entraînement multimodal montre que la fusion précoce avec un ratio visuel faible (10 %) surpasse la fusion tardive (50 % à 80 %), et que le fine-tuning textuel sans visuel peut activer des compétences visuelles (MMLU-Pro : 84,7 % → 86,4 %), validant une approche multimodale native. Enfin, le modèle fonctionne sur vLLM, SGLang et KTransformers, mais avec des bugs dans le parsing des balises sur certains backends. La vision n’est pas encore disponible dans GGUF/llama.cpp. En API, Fireworks domine en vitesse (283 t/s), DeepInfra en prix (0,90 $), Baseten en débit brut (336 t/s). Licencié MIT modifié, il est gratuit pour les entreprises sous 100 M d’UAE. En somme, K2.5 reste une référence pour la vision et l’agent swarm, mais sa verbosité et son coût réel restent des freins. La généralisation du PARL à des workflows réels reste à prouver. Pour les cas d’usage spécifiques, il vaut mieux expérimenter avec plusieurs modèles.
