HyperAIHyperAI
il y a 17 jours

Meta-World : Un benchmark et une évaluation pour l'apprentissage par renforcement multi-tâches et méta-apprentissage

Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Avnish Narayan, Hayden Shively, Adithya Bellathur, Karol Hausman, Chelsea Finn, Sergey Levine
Meta-World : Un benchmark et une évaluation pour l'apprentissage par renforcement multi-tâches et méta-apprentissage
Résumé

Les algorithmes d’apprentissage par renforcement méta peuvent permettre aux robots d’acquérir de nouvelles compétences beaucoup plus rapidement en exploitant l’expérience antérieure pour apprendre à apprendre. Toutefois, une grande partie des recherches actuelles sur l’apprentissage par renforcement méta se concentre sur des distributions de tâches extrêmement étroites. Par exemple, une benchmark couramment utilisée dans ce domaine considère différentes vitesses de déplacement d’un robot simulé comme des tâches distinctes. Lorsque les politiques sont méta-entraînées sur de telles distributions restreintes, elles ne peuvent pas généraliser efficacement à l’acquisition rapide de tâches entièrement nouvelles. Ainsi, si l’objectif de ces méthodes est d’accélérer l’acquisition de comportements entièrement nouveaux, il est essentiel de les évaluer sur des distributions de tâches suffisamment larges pour permettre une généralisation à de nouveaux comportements. Dans cet article, nous proposons une benchmark simulée open-source pour l’apprentissage par renforcement méta et l’apprentissage multi-tâches, composée de 50 tâches distinctes de manipulation robotique. Notre objectif est de faciliter le développement d’algorithmes capables de généraliser afin d’accélérer l’acquisition de tâches entièrement nouvelles, non vues auparavant. Nous évaluons 7 algorithmes d’état de l’art d’apprentissage par renforcement méta et d’apprentissage multi-tâches sur ces tâches. De manière surprenante, bien que chaque tâche et ses variations (par exemple, avec des positions d’objets différentes) puissent être apprises avec un succès raisonnable, ces algorithmes peinent à apprendre simultanément plusieurs tâches, même avec aussi peu que dix tâches d’entraînement distinctes. Notre analyse, combinée à l’ouverture des environnements utilisés, ouvre la voie à de futures recherches en apprentissage multi-tâches et en méta-apprentissage capables de réaliser une généralisation significative, permettant ainsi de libérer tout le potentiel de ces méthodes.

Meta-World : Un benchmark et une évaluation pour l'apprentissage par renforcement multi-tâches et méta-apprentissage | Articles de recherche récents | HyperAI