il y a un mois

Les modèles linguistiques peuvent apprendre à partir de retours verbaux sans récompenses scalaires

Voir les détails de l'article Voir le code

Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

Les modèles linguistiques peuvent apprendre à partir de retours verbaux sans récompenses scalaires

Résumé

Les grands modèles linguistiques (LLM) sont souvent entraînés à l’aide de la récompense par apprentissage par renforcement à partir de feedback humain ou d’IA, mais ces méthodes compressent généralement des retours d’information nuancés en récompenses scalaires, ce qui entraîne une perte importante de richesse informationnelle et une déséquilibre d’échelle. Nous proposons de traiter le feedback verbal comme un signal de conditionnement. Inspirés par les priorités linguistiques utilisées dans la génération d’images à partir de textes, qui permettent d’obtenir des sorties nouvelles à partir de prompts inédits, nous introduisons la politique conditionnée par le feedback (FCP, feedback-conditional policy). La FCP apprend directement à partir de paires réponse-retour, en approximant la postérieure conditionnée par le feedback par une entraînement par maximum de vraisemblance sur des données hors ligne. Nous développons par la suite une phase en ligne d’auto-entraînement, durant laquelle la politique génère des réponses sous des conditions positives et reçoit de nouveaux feedbacks afin de se perfectionner. Cette approche reformule l’apprentissage piloté par le feedback comme une génération conditionnelle plutôt que comme une optimisation de récompense, offrant ainsi une méthode plus expressive pour que les LLM apprennent directement à partir de feedbacks verbaux. Notre code est disponible à l’adresse suivante : https://github.com/sail-sg/feedback-conditional-policy.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Les modèles linguistiques peuvent apprendre à partir de retours verbaux sans récompenses scalaires

Renjie Luo Zichen Liu Xiangyan Liu Chao Du Min Lin Wenhu Chen Wei Lu Tianyu Pang

Résumé

Construire l'IA avec l'IA

Hyper Newsletters