HyperAI超神经

Le réglage fin par renforcement (RFT) est une méthode qui combine le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL). Il vise à optimiser la capacité du modèle à générer des réponses de haute qualité en introduisant l'apprentissage de plusieurs chemins de raisonnement et en évaluant automatiquement le degré de correspondance entre ces chemins et les réponses correctes.

RFT a été proposé pour la première fois par ByteDance en 2024.ReFT : Raisonnement avec réglage fin renforcé" a été publié dans ACL 2024. Cette technologie améliore les performances du modèle en deux étapes : la première est l'étape d'échauffement, qui utilise SFT pour réchauffer le modèle et fournir une base pour que le modèle génère des réponses fondamentalement correctes aux problèmes mathématiques ; la seconde est l'étape d'apprentissage par renforcement (RL), qui utilise l'apprentissage par renforcement en ligne (en particulier l'algorithme PPO) pour l'optimisation, en échantillonnant automatiquement un grand nombre de chemins de raisonnement et en obtenant des récompenses basées sur les réponses réelles pour affiner davantage le modèle.

RFT montre de meilleures performances que SFT sur plusieurs ensembles de données, en particulier sur le modèle CodeLLAMA. La précision du RFT sur l'ensemble de données GSM8K est près de 10 points de pourcentage supérieure à celle du SFT. Cette technologie permet au modèle non seulement d'apprendre des réponses, mais également d'optimiser les chemins de réflexion en fonction des exigences des tâches, de créer une « boucle de rétroaction » pour le modèle et de guider la notation des sorties du modèle par des évaluateurs spécifiques au domaine pour former des solutions adaptées aux exigences spécifiques du scénario.

Réglage Fin Du Renforcement