il y a 2 mois

Exploration : Une étude de l'exploration basée sur le comptage pour l'apprentissage par renforcement profond

Haoran Tang; Rein Houthooft; Davis Foote; Adam Stooke; Xi Chen; Yan Duan; John Schulman; Filip De Turck; Pieter Abbeel

Résumé

Les algorithmes d'exploration basés sur les comptages sont connus pour leur performance quasi-optimale lorsqu'ils sont utilisés en conjonction avec des méthodes de renforcement par tableaux (RL) pour résoudre des processus de décision markoviens discrets de petite taille (MDP). On pense généralement que les méthodes basées sur les comptages ne peuvent pas être appliquées dans des espaces d'états à haute dimension, car la plupart des états ne se produisent qu'une seule fois. Les stratégies d'exploration récentes en renforcement profonde (deep RL) sont capables de gérer des espaces d'états continus à haute dimension grâce à des heuristiques complexes, souvent en s'appuyant sur l'optimisme face à l'incertitude ou la motivation intrinsèque. Dans ce travail, nous décrivons une découverte surprenante : une généralisation simple de l'approche classique basée sur les comptages peut atteindre une performance proche de l'état de l'art sur divers benchmarks de renforcement profonde à haute dimension et/ou continue. Les états sont mappés à des codes hachés, ce qui permet de compter leurs occurrences avec une table de hachage. Ces comptages sont ensuite utilisés pour calculer un bonus de récompense selon la théorie classique d'exploration basée sur les comptages. Nous constatons que des fonctions de hachage simples peuvent obtenir des résultats étonnamment bons sur de nombreuses tâches difficiles. De plus, nous montrons qu'un code haché appris et dépendant du domaine peut encore améliorer ces résultats. Une analyse détaillée révèle des aspects importants d'une bonne fonction de hachage : 1) avoir une granularité appropriée et 2) encoder des informations pertinentes pour résoudre le MDP. Cette stratégie d'exploration atteint une performance proche de l'état de l'art tant dans les tâches de contrôle continu que dans les jeux Atari 2600, offrant ainsi une base simple mais puissante pour résoudre des MDPs nécessitant une exploration considérable.