HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux de 1000 couches pour l'apprentissage par renforcement auto-supervisé : l'augmentation de la profondeur peut permettre de nouvelles capacités d'atteinte de buts

Kevin Wang Ishaan Javali Michał Bortkiewicz Tomasz Trzcinski Benjamin Eysenbach

Abstract

L’augmentation de l’échelle de l’apprentissage auto-supervisé a permis des progrès majeurs en traitement du langage et en vision par ordinateur, mais des avancées comparables restent difficiles à réaliser en apprentissage par renforcement (RL). Dans ce papier, nous étudions les composants fondamentaux de l’apprentissage par renforcement auto-supervisé capables d’améliorer significativement la scalabilité, en mettant l’accent sur la profondeur du réseau comme facteur clé. Alors que la plupart des travaux récents en RL s’appuient sur des architectures peu profondes (2 à 5 couches), nous démontrons qu’augmenter la profondeur jusqu’à 1 024 couches peut considérablement améliorer les performances. Nos expériences sont menées dans un cadre auto-supervisé conditionné à un objectif, où aucune démonstration ni récompense n’est fournie : l’agent doit donc explorer (de zéro) et apprendre à maximiser la probabilité d’atteindre les objectifs commandés. Évaluées sur des tâches simulées de locomotion et de manipulation, notre approche améliore les performances de l’algorithme de RL contrastif auto-supervisé de 2 à 50 fois, surpassant ainsi d’autres méthodes basées sur des objectifs conditionnés. L’augmentation de la profondeur du modèle n’améliore pas seulement les taux de réussite, mais modifie également qualitativement les comportements appris.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Réseaux de 1000 couches pour l'apprentissage par renforcement auto-supervisé : l'augmentation de la profondeur peut permettre de nouvelles capacités d'atteinte de buts | Papers | HyperAI