Command Palette
Search for a command to run...
Découpage Gourmand À Rendement Maximal
Date
URL du document
L'algorithme PRGS (Peak-Return Greedy Slicing) est un cadre algorithmique proposé conjointement par des équipes de recherche de l'Université du Shandong, de l'Académie chinoise des sciences, de l'Université Tsinghua (Li Auto) et d'autres institutions. Les résultats de ces recherches ont été publiés dans [nom de l'article manquant]. Découpage glouton par retour de pic : sélection de sous-trajectoires pour l’apprentissage par renforcement hors ligne basé sur les transformeursElle a été acceptée par ICLR 2026.
PRGS vise à améliorer significativement les capacités d'assemblage et de réorganisation de l'expérience des modèles d'apprentissage par renforcement hors ligne (Offline RL) basés sur Transformer, grâce à un partitionnement explicite des trajectoires au niveau de chaque pas de temps. Plongeant au piège des méthodes existantes qui s'appuient souvent uniquement sur la trajectoire complète et la récompense finale, rendant difficile la distinction entre les segments supérieurs et inférieurs au sein de longues trajectoires, ce cadre utilise trois mécanismes principaux (estimation de la récompense basée sur la MMD, politique de découpage glouton et troncature adaptative de l'historique) pour partitionner et extraire explicitement des sous-trajectoires de haute qualité pour l'entraînement de la politique au niveau de chaque pas de temps. Les expériences montrent que PRGS améliore significativement la capacité du modèle à assembler les expériences à forte récompense, atteignant une amélioration moyenne des performances de 15,81 TP3T par rapport à l'algorithme de référence original dans plusieurs environnements complexes.
Créer de l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.