HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 6 jours

ReinFlow : Affinement de la politique d'ajustement de flux par apprentissage par renforcement en ligne

Tonghe Zhang Chao Yu Sichang Su Yu Wang

ReinFlow : Affinement de la politique d'ajustement de flux par apprentissage par renforcement en ligne

Résumé

Nous proposons ReinFlow, un cadre de apprentissage par renforcement en ligne simple mais efficace, qui affûte une famille de politiques basées sur le matching de flux pour le contrôle robotique continu. Déduit de théories rigoureuses d’apprentissage par renforcement, ReinFlow injecte un bruit apprenable le long du trajet déterministe d’une politique de flux, transformant ainsi ce dernier en un processus markovien discret dans le temps, permettant un calcul exact et direct de la vraisemblance. Cette transformation favorise l’exploration et garantit la stabilité de l’entraînement, permettant à ReinFlow d’affûter diverses variantes de modèles de flux, y compris Rectified Flow [35] et les modèles à raccourcis [19], notamment avec très peu, voire une seule étape de débruitage. Nous évaluons ReinFlow sur des tâches représentatives de locomotion et de manipulation, incluant la planification à long terme à partir d’entrées visuelles et des récompenses rares. Le gain moyen de récompense par épisode des politiques Rectified Flow s’élève à 135,36 % après affûtage sur des tâches exigeantes de locomotion à plusieurs membres, tout en réduisant le nombre d’étapes de débruitage et en économisant 82,63 % du temps d’exécution par rapport à la méthode de fine-tuning par diffusion de pointe, DPPO [43]. Le taux de réussite des politiques Shortcut Model dans des tâches de manipulation à partir d’états ou d’entrées visuelles augmente en moyenne de 40,34 % après affûtage avec ReinFlow, même avec quatre ou une seule étape de débruitage, atteignant une performance comparable à celle des politiques DDIM affûtées, tout en réduisant le temps de calcul de manière moyenne de 23,20 %.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ReinFlow : Affinement de la politique d'ajustement de flux par apprentissage par renforcement en ligne | Articles de recherche | HyperAI