il y a 17 jours

Fonction de quantile entièrement paramétrée pour l'apprentissage par renforcement distributionnel

Derek Yang, Li Zhao, Zichuan Lin, Tao Qin, Jiang Bian, Tieyan Liu

Résumé

L'apprentissage par renforcement distributionnel (RL) se distingue de l'apprentissage par renforcement traditionnel en ce sens qu'il estime non pas l'espérance des récompenses totales, mais des distributions, et a atteint des performances de pointe sur les jeux Atari. Le défi majeur des algorithmes pratiques de RL distributionnel réside dans la manière de paramétrer les distributions estimées afin d'approcher plus fidèlement la distribution continue réelle. Les algorithmes actuels de RL distributionnel paramétrisent soit le côté probabilité, soit le côté valeur de retour de la fonction de distribution, laissant l'autre côté fixé de manière uniforme (comme dans C51, QR-DQN) ou échantillonné aléatoirement (comme dans IQN). Dans cet article, nous proposons une fonction quantile entièrement paramétrée, qui paramétrise à la fois l'axe des fractions quantiles (c'est-à-dire l'axe des abscisses) et l'axe des valeurs (c'est-à-dire l'axe des ordonnées) dans le cadre du RL distributionnel. Notre algorithme intègre un réseau de proposition de fractions qui génère un ensemble discret de fractions quantiles, ainsi qu'un réseau de valeurs quantiles qui fournit les valeurs correspondantes. Ces deux réseaux sont entraînés conjointement afin de trouver la meilleure approximation de la distribution réelle. Des expériences menées sur 55 jeux Atari montrent que notre algorithme surpasse significativement les algorithmes de RL distributionnel existants et établit un nouveau record sur l'environnement d'apprentissage Atari pour les agents non distribués.