il y a 3 mois

Résumé

Nous proposons ReinFlow, un cadre de apprentissage par renforcement en ligne simple mais efficace, qui affûte une famille de politiques basées sur le matching de flux pour le contrôle robotique continu. Déduit de théories rigoureuses d’apprentissage par renforcement, ReinFlow injecte un bruit apprenable le long du trajet déterministe d’une politique de flux, transformant ainsi ce dernier en un processus markovien discret dans le temps, permettant un calcul exact et direct de la vraisemblance. Cette transformation favorise l’exploration et garantit la stabilité de l’entraînement, permettant à ReinFlow d’affûter diverses variantes de modèles de flux, y compris Rectified Flow [35] et les modèles à raccourcis [19], notamment avec très peu, voire une seule étape de débruitage. Nous évaluons ReinFlow sur des tâches représentatives de locomotion et de manipulation, incluant la planification à long terme à partir d’entrées visuelles et des récompenses rares. Le gain moyen de récompense par épisode des politiques Rectified Flow s’élève à 135,36 % après affûtage sur des tâches exigeantes de locomotion à plusieurs membres, tout en réduisant le nombre d’étapes de débruitage et en économisant 82,63 % du temps d’exécution par rapport à la méthode de fine-tuning par diffusion de pointe, DPPO [43]. Le taux de réussite des politiques Shortcut Model dans des tâches de manipulation à partir d’états ou d’entrées visuelles augmente en moyenne de 40,34 % après affûtage avec ReinFlow, même avec quatre ou une seule étape de débruitage, atteignant une performance comparable à celle des politiques DDIM affûtées, tout en réduisant le temps de calcul de manière moyenne de 23,20 %.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Apprentissage Par Renforcement

Modèle De Diffusion

Entraînement Du Modèle

Approche/Framework

Tonghe Zhang Chao Yu Sichang Su Yu Wang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Apprentissage Par Renforcement

Modèle De Diffusion

Entraînement Du Modèle

Approche/Framework

Tonghe Zhang Chao Yu Sichang Su Yu Wang

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

ReinFlow : Affinement de la politique d'ajustement de flux par apprentissage par renforcement en ligne

Tonghe Zhang Chao Yu Sichang Su Yu Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ReinFlow : Affinement de la politique d'ajustement de flux par apprentissage par renforcement en ligne

Tonghe Zhang Chao Yu Sichang Su Yu Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ReinFlow : Affinement de la politique d'ajustement de flux par apprentissage par renforcement en ligne

Tonghe Zhang Chao Yu Sichang Su Yu Wang

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters