HyperAIHyperAI

Command Palette

Search for a command to run...

SwS : Synthèse de Problèmes Guidée par les Faiblesses et la Conscience de Soi dans l'Apprentissage par Renforcement pour le Raisonnement des LLM

Résumé

L'apprentissage par renforcement avec des récompenses vérifiables (RLVR) s'est avéré efficace pour entraîner de grands modèles linguistiques (LLMs) sur des tâches de raisonnement complexes, telles que la résolution de problèmes mathématiques. Un prérequis pour l'évolutivité du RLVR est un ensemble de problèmes de haute qualité dotés de réponses précises et vérifiables. Cependant, la rareté de problèmes mathématiques bien conçus et étiquetés par des humains, ainsi que les réponses à vérification limitée dans les ensembles de données synthétiques orientés vers la distillation, limite leur efficacité dans le RL. De plus, la plupart des stratégies de synthèse de problèmes élargissent l'ensemble de problèmes sans considérer les capacités du modèle, ce qui entraîne une faible efficacité dans la génération de questions utiles. Pour atténuer cette difficulté, nous introduisons un cadre de synthèse de problèmes guidée par les faiblesses auto-identifiées (SwS) qui identifie systématiquement les lacunes du modèle et les utilise pour augmenter l'ensemble de problèmes. Plus précisément, nous définissons les faiblesses comme des questions que le modèle échoue constamment à apprendre au cours de ses échantillonnages itératifs pendant l'entraînement par renforcement. Nous extrayons ensuite les concepts clés à partir de ces cas d'échec et synthétisons de nouveaux problèmes pour renforcer les points faibles du modèle lors d'une formation ultérieure augmentée, lui permettant ainsi de se concentrer sur et d'améliorer progressivement ses faiblesses. Sans recourir à la distillation externe des connaissances, notre cadre favorise une généralisation robuste en permettant au modèle d'identifier et de corriger ses propres faiblesses dans le RL, ce qui se traduit par des gains moyens de performance respectivement de 10,0 % et 7,7 % sur des modèles 7B et 32B selon huit benchmarks principaux en matière de raisonnement.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp