HyperAI
Back to Headlines

Nouveau Modèle Arch-Router : 93% de Précision sans Retraining Coûteuse pour une Routage Intelligente des Requêtes LLM

il y a 2 jours

Nouveau Modèle de Routeur avec 1.5 Milliard de Paramètres : Arch-Router atteint 93% de Précision sans Retraining Coûteux 7 juillet 2025 Les chercheurs de Katanemo Labs ont récemment présenté Arch-Router, un nouveau modèle et cadre de routage conçu pour mapper de manière intelligente les requêtes des utilisateurs aux modèles de langage larges (LLMs) les plus appropriés. Cette innovation s'adresse aux entreprises qui utilisent plusieurs LLMs et cherchent une solution pour diriger les requêtes vers le meilleur modèle sans avoir recours à des logiques rigides ou à des retraintes coûteuses à chaque changement. Les Défis du Routage des LLMs Avec l'augmentation du nombre de LLMs, les développeurs optent de plus en plus pour des systèmes multi-modèles qui exploitent les forces uniques de chaque modèle pour des tâches spécifiques comme la génération de code, la synthèse de texte ou l'édition d'images. Le routage des LLMs, une technique clé pour construire et déployer ces systèmes, agit comme un contrôleur de trafic, dirigeant chaque requête vers le modèle le plus approprié. Deux catégories majeures existent en matière de routage : 1. Routage basé sur les tâches : les requêtes sont dirigées vers des tâches prédéfinies. 2. Routage basé sur les performances : il cherche un équilibre optimal entre coût et performance. Cependant, ces méthodes présentent des défauts. Le routage basé sur les tâches peine à gérer des intentions d'utilisateurs floues ou changeantes, surtout lors de conversations multi-tours. Quant au routage basé sur les performances, il privilégie les scores de benchmark souvent au détriment des préférences réelles des utilisateurs et a un mauvais adaptabilité aux nouveaux modèles sans retraients coûteuses. Un Nouveau Cadre de Routage Aligné sur les Préférences Pour surmonter ces limitations, les chercheurs proposent un cadre de routage aligné sur les préférences de l'utilisateur. Ce cadre permet d'associer les requêtes à des politiques de routage définies par les utilisateurs en langage naturel. Ces politiques sont structurées dans une taxonomie à deux niveaux : "Domaine" (par exemple, "légal", "finances") et "Action" (par exemple, "synthèse", "génération de code"). Le processus de routage se déroule en deux étapes : 1. Un modèle de routage aligné sur les préférences examine la requête de l'utilisateur et l'ensemble des politiques pour sélectionner la politique la plus appropriée. 2. Une fonction de mapping relie cette politique au LLM désigné. Cette séparation entre le modèle de routage et les politiques offre une grande flexibilité. Les modèles peuvent être ajoutés, supprimés ou échangés simplement en modifiant les politiques de routage, ce qui élimine le besoin de retraining ou de modification du routeur lui-même. Fonctionnement d'Arch-Router Arch-Router est un modèle de langage compact de 1.5 milliard de paramètres, finement ajusté pour ce type de routage. Il reçoit la requête de l'utilisateur et l'ensemble des descriptions de politiques dans son prompt, puis génère l'identifiant de la politique la mieux adaptée. Grâce à son approche générative, Arch-Router peut utiliser son savoir pré-entraîné pour comprendre les sémantiques de la requête et des politiques, et traiter toute l'historique de la conversation en une fois. La latence est un souci commun avec l'inclusion de politiques détaillées dans le prompt. Cependant, les chercheurs ont optimisé Arch-Router pour minimiser cet impact. « Bien que la longueur des politiques de routage puisse augmenter, nous pouvons facilement augmenter la fenêtre contextuelle d'Arch-Router avec un effet minimal sur la latence », explique Salman Paracha, co-auteur de l'étude et fondateur/CEO de Katanemo Labs. Il ajoute que la latence est principalement influencée par la longueur de la réponse, qui, pour Arch-Router, est simplement le nom court d'une politique de routage. Performances et Efficacité Pour développer Arch-Router, les chercheurs ont affiné une version de 1.5 milliard de paramètres du modèle Qwen 2.5 sur un ensemble de données curatif de 43 000 exemples. Ils l'ont ensuite testé contre des modèles propriétaires de pointe d'OpenAI, Anthropic et Google sur quatre jeux de données publics destinés à évaluer les systèmes d'IA conversationnels. Les résultats sont éloquents : Arch-Router obtient le plus haut score de routage global de 93,17%, dépassant tous les autres modèles, y compris les meilleurs modèles propriétaires, de 7,71% en moyenne. Son avantage s'accroît notablement lors de conversations plus longues, témoignant de sa capacité à suivre le contexte sur plusieurs tours. Scénarios d'Utilisation Selon Paracha, cette approche est déjà en cours d'application dans divers scénarios. Par exemple, dans les outils de codage open source, les développeurs utilisent Arch-Router pour guider différentes étapes de leur workflow, comme la "conception de code", la "compréhension de code" et la "génération de code", vers les LLMs les plus adéquats. Les entreprises peuvent également diriger les demandes de création de documents vers un modèle comme Claude 3.7 Sonnet et celles d'édition d'images vers Gemini 2.5 Pro. Le système est particulièrement utile pour les assistants personnels dans différents domaines, où les utilisateurs effectuent une multitude de tâches, de la synthèse de texte aux requêtes de faits. « Arch-Router peut aider les développeurs à unifier et à améliorer l'expérience utilisateur globale », affirme Paracha. Intégration avec Arch Ce cadre est intégré à Arch, le serveur proxy natif IA de Katanemo Labs, qui permet aux développeurs d'appliquer des règles de gestion de trafic sophistiquées. Lors de l'intégration d'un nouveau LLM, une équipe peut envoyer une petite partie du trafic pour une politique de routage spécifique au nouveau modèle, vérifier ses performances via des métriques internes, puis transférer complètement le trafic avec confiance. La société s'efforce également d'intégrer ses outils à des plateformes d'évaluation pour simplifier davantage ce processus pour les développeurs d'entreprise. Objectif Final L'objectif ultime est de dépasser les implémentations fragmentées de l'IA. « Arch-Router, et Arch dans son ensemble, aide les développeurs et les entreprises à passer d'implémentations LLM fragmentées à un système unifié et guidé par des politiques », indique Paracha. « Dans des scénarios où les tâches des utilisateurs sont diverses, notre cadre transforme cette fragmentation de tâches et de LLMs en une expérience unifiée, rendant le produit final fluide pour l'utilisateur final. » Évaluation des Professionnels de l'Industrie Les professionnels de l'industrie reconnaissent la pertinence et l'efficacité d'Arch-Router. Selon plusieurs experts, ce modèle représente un pas en avant significatif dans la flexibilité et l'adaptabilité des systèmes multi-LMM. L'approche innovante de Katanemo Labs pourrait bien révolutionner la manière dont les entreprises gèrent leurs systèmes d'IA, offrant une meilleure alignement avec les préférences des utilisateurs tout en réduisant les coûts de maintien et de mise à jour des modèles. Profil de Katanemo Labs Fondée par Salman Paracha, Katanemo Labs est une entreprise spécialisée dans l'optimisation et l'intégration des agents conversationnels pour les entreprises. Avec Arch-Router et Arch, la société visait à simplifier le processus de routage des LLMs, facilitant ainsi la déploiement d'IA plus fluide et efficace. Les efforts continus de Katanemo Labs dans l'amélioration et l'adaptation de technologies d'IA soulignent son engagement à fournir des solutions pratiques et performantes pour l'industrie. En conclusion, Arch-Router de Katanemo Labs offre une solution puissante et flexible pour le routage des LLMs, répondant aux besoins changeants des utilisateurs et des entreprises tout en optimisant la performance et réduisant les coûts. Cet outil prometteur devrait faciliter considérablement le développement et le déploiement d'applications AI conversationnelles multi-modèles.

Related Links