L'ART de l'amélioration des LLM : Poser, Affiner et Faire Confiance

Ces dernières années, les grands modèles de langage (LLMs) ont démontré des capacités génératives remarquables, mais peuvent-ils évaluer la qualité de leurs propres générations ? Un concept populaire, connu sous le nom d'auto-affinement, postule que les LLMs sont capables de détecter et de corriger les erreurs dans leurs générations lorsqu'on leur en fait la demande. Cependant, des preuves empiriques récentes indiquent une direction opposée, suggérant que les LLMs peinent souvent à identifier précisément les erreurs lorsque le raisonnement est impliqué. Pour remédier à cela, nous proposons un objectif de raisonnement avec affinement appelé ART : Poser, Affiner et Faire Confiance (Ask, Refine, and Trust). Ce processus pose les questions nécessaires pour déterminer quand un LLM doit affiner sa sortie et confirme ou retient la confiance dans son affinement en classant l'affinement et la prédiction initiale. Sur deux tâches de raisonnement en plusieurs étapes portant sur des problèmes mathématiques verbaux (GSM8K) et des questions-réponses (StrategyQA), ART réalise une amélioration de performance de +5 points par rapport aux bases d'auto-affinement, tout en utilisant un modèle beaucoup plus petit comme décideur. Nous montrons également l'avantage d'utiliser des modèles plus petits pour prendre des décisions d'affinement comme une alternative rentable à l'amélioration fine d'un modèle plus grand.