HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 13 jours

Optimisation de politique guidée par le remplissage pour les modèles de langage à grande échelle à diffusion

Optimisation de politique guidée par le remplissage pour les modèles de langage à grande échelle à diffusion

Résumé

Les modèles de langage à grande échelle à diffusion masquée (dLLM) émergent comme des alternatives prometteuses aux modèles de langage autoregressifs, offrant des performances compétitives tout en supportant des capacités de génération uniques, telles que le remplissage (inpainting). Nous explorons la manière dont le remplissage peut éclairer la conception d’algorithmes d’apprentissage par renforcement (RL) pour les dLLM. L’alignement des modèles de langage avec l’apprentissage par renforcement soulève un défi d’exploration : des signaux de récompense rares et un gaspillage d’échantillons lorsque les modèles échouent à découvrir des solutions correctes. Bien que cette inefficacité affecte les LLM de manière générale, les dLLM offrent une opportunité distincte : leur capacité au remplissage peut guider l’exploration. Nous introduisons IGPO (Inpainting Guided Policy Optimization), un cadre d’apprentissage par renforcement qui insère stratégiquement des parties de traces de raisonnement correctes (ground-truth) durant l’échantillonnage en ligne. Contrairement à la fourniture de solutions complètes, le remplissage oriente l’exploration vers des espaces de trajectoires prometteurs tout en préservant le raisonnement généré de manière autonome, ce qui permet de combler le fossé entre le fine-tuning supervisé et l’apprentissage par renforcement. Nous appliquons IGPO à des méthodes d’optimisation par groupes telles que GRPO, où les échecs d’exploration entraînent des avantages nuls et des gradients inexistants. IGPO restaure des gradients significatifs tout en améliorant l’efficacité des échantillons. Nous proposons également un fine-tuning supervisé sur des traces concises réécrites de manière synthétique, mieux alignées sur les schémas de génération des dLLM. Grâce à des techniques complémentaires, notamment un filtrage basé sur l’entropie, notre recette d’entraînement permet d’obtenir des gains importants sur trois benchmarks mathématiques — GSM8K, Math500 et AMC — atteignant de nouveaux résultats d’état de l’art pour les dLLM à attention complète.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Optimisation de politique guidée par le remplissage pour les modèles de langage à grande échelle à diffusion | Articles de recherche | HyperAI