Amélioration du raisonnement dans les grands modèles linguistiques par une méthode de suggestion progressive

La performance des grands modèles linguistiques (LLM) dans les tâches de raisonnement dépend fortement de la conception des prompts, les méthodes de Chain-of-Thought (CoT) et de self-consistency étant particulièrement critiques pour renforcer cette capacité. Toutefois, ces approches ne tirent pas pleinement parti des réponses générées par le LLM afin de guider les réponses ultérieures. Ce papier propose une nouvelle méthode de prompting, nommée Progressive-Hint Prompting (PHP), qui permet des interactions multiples automatiques entre l'utilisateur et le LLM en utilisant les réponses précédemment générées comme indices afin de guider progressivement vers les bonnes réponses. PHP est orthogonale à CoT et à la self-consistency, ce qui facilite sa combinaison avec les techniques de pointe afin d’améliorer encore davantage les performances. Nous avons mené des expériences étendues et approfondies sur sept benchmarks. Les résultats montrent que PHP améliore significativement l’exactitude tout en restant très efficace. Par exemple, avec text-davinci-003, nous observons une amélioration de 4,2 % sur GSM8K avec une décodage glouton par rapport à Complex CoT, ainsi qu’une réduction de 46,17 % des chemins d’échantillonnage avec self-consistency. Avec GPT-4 et PHP, nous atteignons des performances de pointe sur SVAMP (89,1 % → 91,9 %), GSM8K (92 % → 95,5 %), AQuA (76,4 % → 79,9 %) et MATH (50,3 % → 53,9 %).