il y a 17 jours

Itération de distribution de données généralisée

Jiajun Fan, Changnan Xiao

Résumé

Obtenir une efficacité d’échantillonnage élevée tout en atteignant des performances finales supérieures constitue l’un des principaux défis du apprentissage par renforcement profond (DRL). Les travaux antérieurs ont pu traiter l’un de ces défis, mais ont généralement échoué à les aborder simultanément. Dans cet article, nous nous efforçons de relever ces deux défis en même temps. Pour cela, nous décomposons d’abord ces défis en deux problèmes classiques du renforcement par apprentissage : la richesse des données et le compromis exploration-exploitation. Ensuite, nous reformulons ces deux problèmes comme une optimisation de la distribution des données d’entraînement, visant à obtenir des données d’entraînement souhaitées dans un nombre limité d’interactions, et les résolvons conjointement grâce à i) une modélisation explicite et un contrôle de la capacité et de la diversité de la politique de comportement, et ii) un contrôle plus fin et adaptable de la distribution de sélection/échantillonnage de la politique de comportement, via une optimisation monotone de la distribution des données. Enfin, nous intégrons ce processus dans l’itération de politique généralisée (GPI), aboutissant à un cadre plus général appelé itération de distribution de données généralisée (GDI). Nous utilisons le cadre GDI pour introduire des versions fondées sur des opérateurs de méthodes classiques du renforcement par apprentissage, allant de DQN à Agent57. Une garantie théorique de l’infériorité de GDI par rapport à GPI est établie. Nous démontrons également une performance de pointe (SOTA) sur l’Arcade Learning Environment (ALE), où notre algorithme atteint un score moyen normalisé par rapport à l’humain (HNS) de 9620,33 %, un HNS médian de 1146,39 %, et dépasse 22 records mondiaux humains, en utilisant uniquement 200 millions d’images d’entraînement. Nos performances sont comparables à celles d’Agent57, tout en nécessitant 500 fois moins de données. Nous estimons qu’il reste encore un long chemin à parcourir avant d’obtenir des agents véritablement supérieurs à l’humain sur ALE.