il y a 18 jours

Récompenses Semantiquement Conscientes pour une Formation R1 Ouverte en Génération Libre

Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber

Résumé

L'évaluation de la génération de textes longs et ouverts est un défi en raison de la difficulté à définir ce qui sépare clairement les bonnes des mauvaises sorties. Les méthodes existantes manquent souvent des aspects clés tels que la cohérence, le style ou la pertinence, ou sont biaisées par les données d'entraînement préalable, rendant l'évaluation de la génération de textes longs et ouverts un problème peu exploré. Pour combler cette lacune, nous proposons PrefBERT, un modèle de notation pour évaluer la génération de textes longs et ouverts dans GRPO (Generative Reinforcement Policy Optimization) et guider son entraînement avec des récompenses distinctes pour les bonnes et les mauvaises sorties. Entraîné sur deux jeux de données d'évaluation de réponses comportant divers styles de textes longs et une qualité notée selon une échelle de Likert, PrefBERT soutient efficacement GRPO en offrant un meilleur retour d'information sémantique que les métriques traditionnelles ROUGE-L et BERTScore. Grâce à des évaluations exhaustives, incluant l'utilisation d'un LLM (Large Language Model) comme juge, des évaluations humaines et une analyse qualitative, nous montrons que PrefBERT, entraîné sur des réponses composées de plusieurs phrases et de paragraphes, reste fiable sur des passages longs variés et s'aligne bien avec les récompenses vérifiables dont GRPO a besoin. Les évaluations humaines confirment que l'utilisation de PrefBERT comme signal de récompense pour entraîner les modèles de politique génère des réponses plus conformes aux préférences humaines que celles entraînées avec des métriques traditionnelles. Notre code est disponible à l'adresse https://github.com/zli12321/long_form_rl.