HyperAIHyperAI

Command Palette

Search for a command to run...

Récompenses Semantiquement Conscientes pour une Formation R1 Ouverte en Génération Libre

Zongxia Li Yapei Chang Yuhang Zhou Xiyang Wu Zichao Liang Yoo Yeon Sung Jordan Lee Boyd-Graber

Résumé

L'évaluation de la génération de textes longs et ouverts est un défi en raison de la difficulté à définir ce qui sépare clairement les bonnes des mauvaises sorties. Les méthodes existantes manquent souvent des aspects clés tels que la cohérence, le style ou la pertinence, ou sont biaisées par les données d'entraînement préalable, rendant l'évaluation de la génération de textes longs et ouverts un problème peu exploré. Pour combler cette lacune, nous proposons PrefBERT, un modèle de notation pour évaluer la génération de textes longs et ouverts dans GRPO (Generative Reinforcement Policy Optimization) et guider son entraînement avec des récompenses distinctes pour les bonnes et les mauvaises sorties. Entraîné sur deux jeux de données d'évaluation de réponses comportant divers styles de textes longs et une qualité notée selon une échelle de Likert, PrefBERT soutient efficacement GRPO en offrant un meilleur retour d'information sémantique que les métriques traditionnelles ROUGE-L et BERTScore. Grâce à des évaluations exhaustives, incluant l'utilisation d'un LLM (Large Language Model) comme juge, des évaluations humaines et une analyse qualitative, nous montrons que PrefBERT, entraîné sur des réponses composées de plusieurs phrases et de paragraphes, reste fiable sur des passages longs variés et s'aligne bien avec les récompenses vérifiables dont GRPO a besoin. Les évaluations humaines confirment que l'utilisation de PrefBERT comme signal de récompense pour entraîner les modèles de politique génère des réponses plus conformes aux préférences humaines que celles entraînées avec des métriques traditionnelles. Notre code est disponible à l'adresse https://github.com/zli12321/long_form_rl.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Récompenses Semantiquement Conscientes pour une Formation R1 Ouverte en Génération Libre | Articles | HyperAI