Command Palette
Search for a command to run...
LoopTool : Clôture de la boucle données-formation pour des appels d'outils robustes des LLM
Kangning Zhang Wenxiang Jiao Kounianhua Du Yuan Lu Weiwen Liu Weinan Zhang Lei Zhang Yong Yu

Résumé
L’ajout d’outils externes aux grands modèles linguistiques (LLM) leur permet d’exécuter des tâches complexes et à plusieurs étapes. Toutefois, l’apprentissage des outils est entravé par les pipelines de données synthétiques statiques, dans lesquels la génération de données et l’entraînement du modèle sont réalisés comme deux processus séparés et non interactifs. Cette approche ne permet pas de s’adapter de manière dynamique aux faiblesses spécifiques du modèle, et laisse subsister des étiquettes bruitées, ce qui détériore l’efficacité de l’entraînement. Nous proposons LoopTool, un cadre automatisé intégralement intégré au modèle pour l’évolution des données, qui boucle cette boucle en intégrant étroitement la synthèse des données et l’entraînement du modèle. LoopTool affine itérativement à la fois les données et le modèle grâce à trois modules synergiques : (1) l’analyse de capacité paresseuse (GCP, Greedy Capability Probing) diagnostique les capacités maîtrisées et les échecs du modèle ; (2) la vérification des étiquettes guidée par un jugement (JGLV, Judgement-Guided Label Verification) utilise un modèle de jugement open-source pour détecter et corriger les erreurs d’annotation, purifiant progressivement le jeu de données ; et (3) l’extension de données pilotée par les erreurs (EDDE, Error-Driven Data Expansion) génère de nouvelles instances exigeantes à partir des échecs identifiés. Ce processus bouclé s’inscrit dans un écosystème économique et open-source, éliminant la dépendance aux API fermées coûteuses. Les expériences montrent que notre modèle de 8 milliards de paramètres entraîné avec LoopTool dépasse significativement celui de 32 milliards de paramètres utilisé comme générateur de données, et atteint de nouveaux résultats état-de-l’art sur les benchmarks BFCL-v3 et ACEBench pour sa taille. Nos travaux démontrent que les pipelines de données auto-améliorants, fonctionnant en boucle fermée, peuvent considérablement renforcer les capacités d’utilisation d’outils des LLM.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.