Command Palette
Search for a command to run...
TUMIX : Échelonnage à l'heure du test avec plusieurs agents et combinaison d'outils
Yongchao Chen Jiefeng Chen Rui Meng Ji Yin Na Li et al

Résumé
Bien que l’intégration d’outils tels que l’interprète de code et la recherche ait considérablement amélioré le raisonnement des grands modèles linguistiques (LLM), comme dans les cas de ChatGPT Agent et Gemini-Pro, des directives pratiques sur l’utilisation optimale de ces outils font encore défaut. Le défi central réside dans la combinaison efficace du raisonnement textuel, de la programmation et de la recherche pour répondre à une diversité de questions. Dans cet article, nous proposons TUMIX (Tool-Use Mixture), un cadre d’ensembles qui exécute en parallèle plusieurs agents, chacun appliquant une stratégie d’utilisation d’outils différente et empruntant une voie de réponse distincte. Les agents de TUMIX partagent et affinent itérativement leurs réponses en fonction de la question posée et des réponses précédentes. Dans nos expériences, TUMIX obtient des gains significatifs par rapport aux méthodes les plus avancées basées sur l’ajout d’outils et aux approches d’échelle à l’exécution (test-time scaling), offrant une amélioration moyenne de précision allant jusqu’à 3,55 % par rapport au meilleur modèle de référence sur Gemini-2.5-Pro et Gemini-2.5-Flash, sur des benchmarks clés de raisonnement, tout en maintenant un coût d’inférence presque identique. Nous constatons que la diversité et la qualité des agents sont cruciales, et qu’elles peuvent être améliorées en utilisant des LLM pour optimiser automatiquement la conception des agents. En outre, TUMIX peut interrompre le processus d’affinement dès qu’un niveau de confiance suffisant est atteint, préservant ainsi les performances tout en réduisant le coût d’inférence à seulement 49 %. Un agrandissement supplémentaire permet d’atteindre des performances encore supérieures, bien que cela entraîne un coût plus élevé.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.