HyperAI

Distiller l'agent LLM en modèles plus petits avec des outils de recherche et de code

Minki Kang, Jongwon Jeong, Seanie Lee, Jaewoong Cho, Sung Ju Hwang
Date de publication: 5/26/2025
Distiller l'agent LLM en modèles plus petits avec des outils de recherche et de code
Résumé

Les grands modèles de langage (LLMs) excellent dans les tâches de raisonnement complexes mais restent coûteux en termes de calcul, limitant leur déploiement pratique. Pour remédier à cela, des travaux récents se sont concentrés sur la distillation des capacités de raisonnement dans des modèles de langage plus petits (sLMs) en utilisant des traces de chaîne de pensée (CoT) provenant des LLMs enseignants. Cependant, cette approche rencontre des difficultés dans les scénarios nécessitant une connaissance factuelle rare ou un calcul précis, où les sLMs ont tendance à halluciner en raison de leurs capacités limitées. Dans ce travail, nous proposons l'Agent Distillation, un cadre permettant de transférer non seulement les capacités de raisonnement mais aussi le comportement complet de résolution de tâches d'agents basés sur des LLMs vers des sLMs dotés d'outils de recherche et de codage. Nous améliorons la distillation d'agents selon deux axes complémentaires : (1) nous introduisons une méthode d'incitation appelée préfixe première-pensée pour améliorer la qualité des trajectoires générées par l'enseignant ; et (2) nous proposons une génération d'actions auto-cohérente pour renforcer la robustesse des agents plus petits lors des tests. Nous évaluons notre méthode sur huit tâches de raisonnement couvrant les domaines factuel et mathématique, incluant à la fois la généralisation intra-domaine et extra-domaine. Nos résultats montrent que des sLMs aussi petits que 0,5 milliard, 1,5 milliard et 3 milliards de paramètres peuvent atteindre des performances comparables à celles des modèles plus grands finement ajustés avec 1,5 milliard, 3 milliards et 7 milliards de paramètres en utilisant la distillation CoT. Ces résultats démontrent le potentiel de la distillation d'agents pour construire des agents pratiques et utilisant des outils dans des modèles plus petits. Notre code est disponible sur https://github.com/Nardien/agent-distillation.