il y a 17 jours

Amélioration de l'efficacité computationnelle en apprentissage par renforcement visuel grâce aux embeddings stockés

Lili Chen, Kimin Lee, Aravind Srinivas, Pieter Abbeel

Résumé

Les progrès récents dans l’apprentissage par renforcement profond hors politique (off-policy RL) ont permis des succès remarquables sur des tâches complexes à partir d’observations visuelles. Le replay d’expérience améliore l’efficacité échantillonnage en réutilisant les expériences passées, tandis que les réseaux de neurones convolutifs (CNN) traitent efficacement les entrées à haute dimension. Toutefois, ces techniques nécessitent une mémoire importante et une bande passante computationnelle élevée. Dans cet article, nous proposons SEER (Stored Embeddings for Efficient Reinforcement Learning), une modification simple des méthodes RL hors politique existantes, visant à répondre à ces contraintes computationnelles et mémoire. Pour réduire la charge computationnelle des mises à jour de gradients dans les CNN, nous figeons précocement les couches inférieures des encodeurs CNN, en raison de leur convergence précoce. Par ailleurs, nous réduisons la consommation mémoire en stockant des vecteurs latents à faible dimension pour le replay d’expérience au lieu des images à haute dimension, ce qui permet une augmentation adaptative de la capacité du buffer de replay — une approche particulièrement utile dans des environnements à mémoire limitée. Nos expériences montrent que SEER ne dégrade pas les performances des agents RL tout en réalisant des économies significatives en calcul et en mémoire sur une variété d’environnements DeepMind Control et de jeux Atari.