OpenRouter lance Fusion : des modèles combinés à mi-prix
La plateforme américaine de distribution d'IA OpenRouter a récemment lancé Fusion, une architecture de modèles composites capable d'atteindre, avec des coûts réduits, des performances proches ou supérieures aux modèles phares contemporains. Cette initiative s'inscrit dans la stratégie de l'entreprise pour fidéliser les développeurs et éviter qu'ils ne contournent sa passerelle API. Fusion fonctionne selon un principe d'agrégation intelligent. Lorsqu'une requête est envoyée, le système la répartit simultanément sur plusieurs modèles dits en panneau, qui exécutent chacun des tâches parallèles, notamment l'accès au web ou l'exécution de commandes système. Une fois les réponses obtenues, un modèle arbitre les analyse pour produire une synthèse structurée, avant de générer la réponse finale. Cette orchestration côté serveur permet aux développeurs d'activer la fonction via un simple paramètre API, tout en sécurisant le processus pour éviter les boucles d'appels récursifs. Les tests de référence, réalisés sur le benchmark DRACO dédié aux tâches de recherche approfondie, confirment l'efficacité de l'approche. Un panel combinant Fable 5 et GPT-5.5 a atteint 69,0 points, dépassant significativement leurs scores individuels. Plus surprenant, l'assemblage de trois modèles économiques a généré 64,7 points, surpassant des modèles haut de gamme comme Opus 4.8 ou GPT-5.5, pour environ la moitié du coût. L'expérience a également démontré que l'auto-combinaison de trois instances identiques d'Opus 4.8 améliorait les résultats, validant le principe de cohérence interne par vote multiple. Au-delà des performances, Fusion répond à un enjeu commercial majeur pour OpenRouter. En fédérant l'accès à plus de 400 fournisseurs de modèles, la plateforme propose une coordination inter-entreprises, une gestion robuste des échecs et une diversité d'outils que les fournisseurs uniques ne peuvent offrir. Cela transforme l'agrégateur d'API en un créateur de valeur stratégique, plutôt qu'en un simple intermédiaire de routage. Toutefois, cette solution présente des limites. La latence est multipliée par deux ou trois en raison de l'exécution parallèle et de la synthèse finale, et le coût calculé reste supérieur à un appel modèle unique. Fusion n'est pas conçu pour le codage ou le traitement temps réel, et sa qualité dépend intrinsèquement de la capacité du modèle arbitre à évaluer et fusionner les réponses. Des biais potentiels et des défis techniques liés à l'évolutivité de l'arbitrage subsistent. Malgré ces contraintes, le lancement de Fusion marque un tournant conceptuel. Il démontre que l'ingénierie d'orchestration peut systématiquement améliorer les capacités des intelligences artificielles, réduisant la dépendance exclusive aux modèles les plus coûteux et redéfinissant la manière dont les entreprises évalueront la performance des systèmes IA à venir.
