HyperAIHyperAI

Command Palette

Search for a command to run...

L'ART de l'amélioration des LLM : Poser, Affiner et Faire Confiance

Kumar Shridhar Koustuv Sinha Andrew Cohen Tianlu Wang Ping Yu Ram Pasunuru Mrinmaya Sachan Jason Weston Asli Celikyilmaz

Résumé

Ces dernières années, les grands modèles de langage (LLMs) ont démontré des capacités génératives remarquables, mais peuvent-ils évaluer la qualité de leurs propres générations ? Un concept populaire, connu sous le nom d'auto-affinement, postule que les LLMs sont capables de détecter et de corriger les erreurs dans leurs générations lorsqu'on leur en fait la demande. Cependant, des preuves empiriques récentes indiquent une direction opposée, suggérant que les LLMs peinent souvent à identifier précisément les erreurs lorsque le raisonnement est impliqué. Pour remédier à cela, nous proposons un objectif de raisonnement avec affinement appelé ART : Poser, Affiner et Faire Confiance (Ask, Refine, and Trust). Ce processus pose les questions nécessaires pour déterminer quand un LLM doit affiner sa sortie et confirme ou retient la confiance dans son affinement en classant l'affinement et la prédiction initiale. Sur deux tâches de raisonnement en plusieurs étapes portant sur des problèmes mathématiques verbaux (GSM8K) et des questions-réponses (StrategyQA), ART réalise une amélioration de performance de +5 points par rapport aux bases d'auto-affinement, tout en utilisant un modèle beaucoup plus petit comme décideur. Nous montrons également l'avantage d'utiliser des modèles plus petits pour prendre des décisions d'affinement comme une alternative rentable à l'amélioration fine d'un modèle plus grand.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp