HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 22 jours

TUMIX : Échelonnage à l'heure du test avec plusieurs agents et combinaison d'outils

Yongchao Chen Jiefeng Chen Rui Meng Ji Yin Na Li et al

TUMIX : Échelonnage à l'heure du test avec plusieurs agents et combinaison d'outils

Résumé

Bien que l’intégration d’outils tels que l’interprète de code et la recherche ait considérablement amélioré le raisonnement des grands modèles linguistiques (LLM), comme dans les cas de ChatGPT Agent et Gemini-Pro, des directives pratiques sur l’utilisation optimale de ces outils font encore défaut. Le défi central réside dans la combinaison efficace du raisonnement textuel, de la programmation et de la recherche pour répondre à une diversité de questions. Dans cet article, nous proposons TUMIX (Tool-Use Mixture), un cadre d’ensembles qui exécute en parallèle plusieurs agents, chacun appliquant une stratégie d’utilisation d’outils différente et empruntant une voie de réponse distincte. Les agents de TUMIX partagent et affinent itérativement leurs réponses en fonction de la question posée et des réponses précédentes. Dans nos expériences, TUMIX obtient des gains significatifs par rapport aux méthodes les plus avancées basées sur l’ajout d’outils et aux approches d’échelle à l’exécution (test-time scaling), offrant une amélioration moyenne de précision allant jusqu’à 3,55 % par rapport au meilleur modèle de référence sur Gemini-2.5-Pro et Gemini-2.5-Flash, sur des benchmarks clés de raisonnement, tout en maintenant un coût d’inférence presque identique. Nous constatons que la diversité et la qualité des agents sont cruciales, et qu’elles peuvent être améliorées en utilisant des LLM pour optimiser automatiquement la conception des agents. En outre, TUMIX peut interrompre le processus d’affinement dès qu’un niveau de confiance suffisant est atteint, préservant ainsi les performances tout en réduisant le coût d’inférence à seulement 49 %. Un agrandissement supplémentaire permet d’atteindre des performances encore supérieures, bien que cela entraîne un coût plus élevé.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
TUMIX : Échelonnage à l'heure du test avec plusieurs agents et combinaison d'outils | Articles de recherche | HyperAI