HyperAIHyperAI

Command Palette

Search for a command to run...

Amélioration de l'efficacité computationnelle en apprentissage par renforcement visuel grâce aux embeddings stockés

Lili Chen Kimin Lee Aravind Srinivas Pieter Abbeel

Résumé

Les progrès récents dans l’apprentissage par renforcement profond hors politique (off-policy RL) ont permis des succès remarquables sur des tâches complexes à partir d’observations visuelles. Le replay d’expérience améliore l’efficacité échantillonnage en réutilisant les expériences passées, tandis que les réseaux de neurones convolutifs (CNN) traitent efficacement les entrées à haute dimension. Toutefois, ces techniques nécessitent une mémoire importante et une bande passante computationnelle élevée. Dans cet article, nous proposons SEER (Stored Embeddings for Efficient Reinforcement Learning), une modification simple des méthodes RL hors politique existantes, visant à répondre à ces contraintes computationnelles et mémoire. Pour réduire la charge computationnelle des mises à jour de gradients dans les CNN, nous figeons précocement les couches inférieures des encodeurs CNN, en raison de leur convergence précoce. Par ailleurs, nous réduisons la consommation mémoire en stockant des vecteurs latents à faible dimension pour le replay d’expérience au lieu des images à haute dimension, ce qui permet une augmentation adaptative de la capacité du buffer de replay — une approche particulièrement utile dans des environnements à mémoire limitée. Nos expériences montrent que SEER ne dégrade pas les performances des agents RL tout en réalisant des économies significatives en calcul et en mémoire sur une variété d’environnements DeepMind Control et de jeux Atari.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp