Command Palette
Search for a command to run...
ReinFlow : Affinement de la politique d'ajustement de flux par apprentissage par renforcement en ligne
Tonghe Zhang Chao Yu Sichang Su Yu Wang

Résumé
Nous proposons ReinFlow, un cadre de apprentissage par renforcement en ligne simple mais efficace, qui affûte une famille de politiques basées sur le matching de flux pour le contrôle robotique continu. Déduit de théories rigoureuses d’apprentissage par renforcement, ReinFlow injecte un bruit apprenable le long du trajet déterministe d’une politique de flux, transformant ainsi ce dernier en un processus markovien discret dans le temps, permettant un calcul exact et direct de la vraisemblance. Cette transformation favorise l’exploration et garantit la stabilité de l’entraînement, permettant à ReinFlow d’affûter diverses variantes de modèles de flux, y compris Rectified Flow [35] et les modèles à raccourcis [19], notamment avec très peu, voire une seule étape de débruitage. Nous évaluons ReinFlow sur des tâches représentatives de locomotion et de manipulation, incluant la planification à long terme à partir d’entrées visuelles et des récompenses rares. Le gain moyen de récompense par épisode des politiques Rectified Flow s’élève à 135,36 % après affûtage sur des tâches exigeantes de locomotion à plusieurs membres, tout en réduisant le nombre d’étapes de débruitage et en économisant 82,63 % du temps d’exécution par rapport à la méthode de fine-tuning par diffusion de pointe, DPPO [43]. Le taux de réussite des politiques Shortcut Model dans des tâches de manipulation à partir d’états ou d’entrées visuelles augmente en moyenne de 40,34 % après affûtage avec ReinFlow, même avec quatre ou une seule étape de débruitage, atteignant une performance comparable à celle des politiques DDIM affûtées, tout en réduisant le temps de calcul de manière moyenne de 23,20 %.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.