HyperAIHyperAI

Command Palette

Search for a command to run...

Exploration : Une étude de l'exploration basée sur le comptage pour l'apprentissage par renforcement profond

Haoran Tang extsuperscript1,* Rein Houthooft extsuperscript3,4,* Davis Foote extsuperscript2 Adam Stooke extsuperscript2 Xi Chen extsuperscript2† Yan Duan extsuperscript2† John Schulman extsuperscript4 Filip De Turck extsuperscript3 Pieter Abbeel extsuperscript2†

Résumé

Les algorithmes d'exploration basés sur les comptages sont connus pour leur performance quasi-optimale lorsqu'ils sont utilisés en conjonction avec des méthodes de renforcement par tableaux (RL) pour résoudre des processus de décision markoviens discrets de petite taille (MDP). On pense généralement que les méthodes basées sur les comptages ne peuvent pas être appliquées dans des espaces d'états à haute dimension, car la plupart des états ne se produisent qu'une seule fois. Les stratégies d'exploration récentes en renforcement profonde (deep RL) sont capables de gérer des espaces d'états continus à haute dimension grâce à des heuristiques complexes, souvent en s'appuyant sur l'optimisme face à l'incertitude ou la motivation intrinsèque. Dans ce travail, nous décrivons une découverte surprenante : une généralisation simple de l'approche classique basée sur les comptages peut atteindre une performance proche de l'état de l'art sur divers benchmarks de renforcement profonde à haute dimension et/ou continue. Les états sont mappés à des codes hachés, ce qui permet de compter leurs occurrences avec une table de hachage. Ces comptages sont ensuite utilisés pour calculer un bonus de récompense selon la théorie classique d'exploration basée sur les comptages. Nous constatons que des fonctions de hachage simples peuvent obtenir des résultats étonnamment bons sur de nombreuses tâches difficiles. De plus, nous montrons qu'un code haché appris et dépendant du domaine peut encore améliorer ces résultats. Une analyse détaillée révèle des aspects importants d'une bonne fonction de hachage : 1) avoir une granularité appropriée et 2) encoder des informations pertinentes pour résoudre le MDP. Cette stratégie d'exploration atteint une performance proche de l'état de l'art tant dans les tâches de contrôle continu que dans les jeux Atari 2600, offrant ainsi une base simple mais puissante pour résoudre des MDPs nécessitant une exploration considérable.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp