HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration Consciente des Contingences dans l'Apprentissage par Renforcement

Jongwook Choi Yijie Guo Marcin Moczulski Junhyuk Oh Neal Wu Mohammad Norouzi Honglak Lee

Résumé

Ce travail examine si l'apprentissage de la conscience des contingences et des aspects contrôlables d'un environnement peut conduire à une meilleure exploration en apprentissage par renforcement. Pour étudier cette question, nous considérons une mise en œuvre de cette hypothèse évaluée sur l'Arcade Learning Environment (ALE). Dans cette étude, nous développons un modèle de dynamiques attentif (ADM) qui découvre les éléments contrôlables des observations, souvent associés à la position du personnage dans les jeux Atari. L'ADM est formé de manière auto-supervisée pour prédire les actions entreprises par l'agent. Les informations de contingence apprises sont utilisées comme partie de la représentation d'état aux fins d'exploration. Nous démontrons que la combinaison de l'algorithme acteur-critique avec une exploration basée sur le comptage en utilisant notre représentation permet d'obtenir des résultats impressionnants sur un ensemble de jeux Atari notoirement difficiles en raison de récompenses rares. Par exemple, nous rapportons un score d'avant-garde supérieur à 11 000 points sur Montezuma's Revenge sans utiliser de démonstrations d'experts, d'informations explicites de haut niveau (par exemple, les états RAM) ou de données supervisées. Nos expériences confirment que la conscience des contingences est effectivement un concept extrêmement puissant pour aborder les problèmes d'exploration en apprentissage par renforcement et ouvre des questions de recherche intéressantes pour des investigations ultérieures.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp