HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage par renforcement multi-tâches avec modularisation douce

Ruihan Yang Huazhe Xu Yi Wu Xiaolong Wang

Résumé

L'apprentissage multi-tâches constitue un problème particulièrement difficile en apprentissage par renforcement. Bien que l'entraînement simultané de plusieurs tâches permette aux politiques de partager des paramètres entre différentes tâches, le problème d'optimisation devient non trivial : il reste incertain quels paramètres du réseau doivent être réutilisés d'une tâche à l'autre, et comment les gradients provenant de tâches différentes peuvent interférer entre eux. Ainsi, au lieu de partager naïvement les paramètres entre les tâches, nous introduisons une technique de modularisation explicite sur la représentation de la politique afin de atténuer ce problème d'optimisation. Étant donné un réseau de politique de base, nous concevons un réseau de routage qui estime différentes stratégies de routage afin de reconfigurer le réseau de base pour chaque tâche. Au lieu de sélectionner directement une route pour chaque tâche, notre politique spécifique à la tâche utilise une méthode appelée modularisation douce (soft modularization) pour combiner de manière douce toutes les routes possibles, ce qui la rend particulièrement adaptée aux tâches séquentielles. Nous expérimentons notre méthode sur diverses tâches de manipulation robotique en simulation et montrons qu'elle améliore significativement, par rapport à des baselines performantes, à la fois l'efficacité en échantillons et les performances.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp