HyperAIHyperAI

Command Palette

Search for a command to run...

Fonction de quantile entièrement paramétrée pour l'apprentissage par renforcement distributionnel

Derek Yang Li Zhao Zichuan Lin Tao Qin Jiang Bian Tieyan Liu

Résumé

L'apprentissage par renforcement distributionnel (RL) se distingue de l'apprentissage par renforcement traditionnel en ce sens qu'il estime non pas l'espérance des récompenses totales, mais des distributions, et a atteint des performances de pointe sur les jeux Atari. Le défi majeur des algorithmes pratiques de RL distributionnel réside dans la manière de paramétrer les distributions estimées afin d'approcher plus fidèlement la distribution continue réelle. Les algorithmes actuels de RL distributionnel paramétrisent soit le côté probabilité, soit le côté valeur de retour de la fonction de distribution, laissant l'autre côté fixé de manière uniforme (comme dans C51, QR-DQN) ou échantillonné aléatoirement (comme dans IQN). Dans cet article, nous proposons une fonction quantile entièrement paramétrée, qui paramétrise à la fois l'axe des fractions quantiles (c'est-à-dire l'axe des abscisses) et l'axe des valeurs (c'est-à-dire l'axe des ordonnées) dans le cadre du RL distributionnel. Notre algorithme intègre un réseau de proposition de fractions qui génère un ensemble discret de fractions quantiles, ainsi qu'un réseau de valeurs quantiles qui fournit les valeurs correspondantes. Ces deux réseaux sont entraînés conjointement afin de trouver la meilleure approximation de la distribution réelle. Des expériences menées sur 55 jeux Atari montrent que notre algorithme surpasse significativement les algorithmes de RL distributionnel existants et établit un nouveau record sur l'environnement d'apprentissage Atari pour les agents non distribués.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp