FireAct : Vers le fine-tuning des Agents Langage

Des efforts récents ont consisté à enrichir les modèles linguistiques (LM) d’outils ou d’environnements externes, conduisant au développement d’agents linguistiques capables de raisonner et d’agir. Toutefois, la plupart de ces agents s’appuient sur des techniques de peu d’exemples (few-shot prompting) avec des LM prêts à l’emploi. Dans cet article, nous explorons et défendons une direction négligée : le fine-tuning des LM afin d’obtenir des agents linguistiques. En adoptant un cadre de réponse à des questions (QA) intégrant une API de recherche Google, nous étudions divers LM de base, méthodes de prompt, jeux de données de fine-tuning et tâches de QA, et constatons que les agents linguistiques s’améliorent de manière cohérente après le fine-tuning de leurs modèles de base. Par exemple, le fine-tuning de Llama2-7B avec 500 trajectoires d’agents générées par GPT-4 entraîne une augmentation de 77 % de la performance sur HotpotQA. En outre, nous proposons FireAct, une nouvelle approche de fine-tuning des LM à partir de trajectoires issues de plusieurs tâches et méthodes de prompt, et montrons que des données de fine-tuning plus diversifiées peuvent encore améliorer les agents. En complément d’autres résultats concernant les effets d’échelle, la robustesse, la généralisation, l’efficacité et les coûts, notre travail établit les bénéfices complets du fine-tuning des LM pour les agents, et fournit un ensemble initial de conceptions expérimentales, d’insights et de questions ouvertes en vue du fine-tuning des agents linguistiques.