il y a 17 jours

ToolLLM : Faciliter aux grands modèles linguistiques la maîtrise de plus de 16 000 API du monde réel

Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Lauren Hong, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun

Voir les détails de l'article

ToolLLM : Faciliter aux grands modèles linguistiques la maîtrise de plus de 16 000 API du monde réel

Résumé

Malgré les progrès réalisés par les modèles linguistiques à grande échelle open-source (LLM), tels que LLaMA, leurs capacités d’utilisation d’outils restent significativement limitées, c’est-à-dire leur capacité à utiliser des outils externes (API) afin de répondre à des instructions humaines. La raison en est que le réglage par instruction actuel se concentre principalement sur des tâches linguistiques fondamentales, tout en ignorant le domaine de l’utilisation d’outils. Cela contraste fortement avec les performances exceptionnelles en matière d’utilisation d’outils des modèles linguistiques à grande échelle de pointe (SOTA) à code fermé, tels que ChatGPT. Pour combler cet écart, nous introduisons ToolLLM, un cadre général pour l’utilisation d’outils, couvrant la construction de données, l’entraînement des modèles et l’évaluation. Nous présentons tout d’abord ToolBench, un jeu de données pour le réglage par instruction dédié à l’utilisation d’outils, construit automatiquement à l’aide de ChatGPT. La construction peut être divisée en trois étapes : (i) collecte d’API : nous avons recueilli 16 464 API RESTful réelles, couvrant 49 catégories, depuis RapidAPI Hub ; (ii) génération d’instructions : nous utilisons ChatGPT pour générer des instructions diversifiées impliquant ces API, couvrant à la fois des scénarios à un seul outil et à plusieurs outils ; (iii) annotation du parcours de solution : nous faisons appel à ChatGPT pour rechercher un parcours de solution valide (chaîne d’appels d’API) pour chaque instruction. Afin d’améliorer les capacités de raisonnement des LLM, nous avons développé un nouvel algorithme basé sur une recherche en profondeur, fondé sur un arbre décisionnel. Cet algorithme permet aux LLM d’évaluer plusieurs traces de raisonnement et d’élargir l’espace de recherche. En outre, pour évaluer les capacités d’utilisation d’outils des LLM, nous avons conçu un évaluateur automatique : ToolEval. Sur la base de ToolBench, nous avons finement ajusté LLaMA pour obtenir un modèle LLM nommé ToolLLaMA, auquel nous avons ajouté un récupérateur d’API neuronal afin de recommander les API les plus pertinentes pour chaque instruction. Les expérimentations montrent que ToolLLaMA possède une capacité remarquable à exécuter des instructions complexes et à généraliser à des API inconnues, tout en affichant des performances comparables à celles de ChatGPT. ToolLLaMA démontre également une forte capacité de généralisation zéro-shot sur un jeu de données d’utilisation d’outils hors distribution : APIBench.