HyperAIHyperAI

Command Palette

Search for a command to run...

Réglage Fin Du Renforcement

Date

il y a un an

Le réglage fin par renforcement (RFT) est une méthode qui combine le réglage fin supervisé (SFT) et l'apprentissage par renforcement (RL). Il vise à optimiser la capacité du modèle à générer des réponses de haute qualité en introduisant l'apprentissage de plusieurs chemins de raisonnement et en évaluant automatiquement le degré de correspondance entre ces chemins et les réponses correctes.

RFT a été proposé pour la première fois par ByteDance en 2024.ReFT : Raisonnement avec réglage fin renforcé" a été publié dans ACL 2024. Cette technologie améliore les performances du modèle en deux étapes : la première est l'étape d'échauffement, qui utilise SFT pour réchauffer le modèle et fournir une base pour que le modèle génère des réponses fondamentalement correctes aux problèmes mathématiques ; la seconde est l'étape d'apprentissage par renforcement (RL), qui utilise l'apprentissage par renforcement en ligne (en particulier l'algorithme PPO) pour l'optimisation, en échantillonnant automatiquement un grand nombre de chemins de raisonnement et en obtenant des récompenses basées sur les réponses réelles pour affiner davantage le modèle.

RFT montre de meilleures performances que SFT sur plusieurs ensembles de données, en particulier sur le modèle CodeLLAMA. La précision du RFT sur l'ensemble de données GSM8K est près de 10 points de pourcentage supérieure à celle du SFT. Cette technologie permet au modèle non seulement d'apprendre des réponses, mais également d'optimiser les chemins de réflexion en fonction des exigences des tâches, de créer une « boucle de rétroaction » pour le modèle et de guider la notation des sorties du modèle par des évaluateurs spécifiques au domaine pour former des solutions adaptées aux exigences spécifiques du scénario.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réglage Fin Du Renforcement | Wiki | HyperAI