HyperAIHyperAI
il y a 16 jours

CURL : Représentations non supervisées contrastives pour l'apprentissage par renforcement

Aravind Srinivas, Michael Laskin, Pieter Abbeel
CURL : Représentations non supervisées contrastives pour l'apprentissage par renforcement
Résumé

Nous présentons CURL : Representations contrastives non supervisées pour l’apprentissage par renforcement. CURL extrait des caractéristiques de haut niveau à partir de pixels bruts en utilisant l’apprentissage contrastif, puis effectue un contrôle hors politique (off-policy) sur les caractéristiques ainsi extraites. CURL surpasse les méthodes précédentes basées sur les pixels, qu’elles soient basées sur un modèle ou sans modèle, sur des tâches complexes du DeepMind Control Suite et des jeux Atari, avec des gains de performance respectifs de 1,9× et 1,2× aux seuils de 100 000 étapes d’environnement et d’interactions. Sur le DeepMind Control Suite, CURL est la première méthode basée sur des images à approcher presque la performance en efficacité d’échantillonnage des méthodes utilisant des caractéristiques d’état. Notre code est open source et disponible à l’adresse suivante : https://github.com/MishaLaskin/curl.

CURL : Représentations non supervisées contrastives pour l'apprentissage par renforcement | Articles de recherche récents | HyperAI