il y a 17 jours

ADN : Optimisation de Politique Proche avec une Architecture de Réseau Dual

Matthew Aitchison, Penny Sweetser

Résumé

Cet article explore le problème de l’apprentissage simultané d’une fonction de valeur et d’une politique dans les modèles d’apprentissage par renforcement profond du type actor-critic. Nous constatons que la pratique courante d’apprentissage conjoint de ces deux fonctions est sous-optimale, en raison d’un écart d’un ordre de grandeur entre les niveaux de bruit associés à ces deux tâches. En revanche, nous montrons qu’un apprentissage indépendant de ces tâches, mais suivi d’une phase de distillation contrainte, améliore significativement les performances. De plus, nous observons que les niveaux de bruit du gradient de politique peuvent être réduits en utilisant une estimation du retour à faible \textit{variance}, tandis que le niveau de bruit de l’apprentissage de la fonction de valeur diminue avec une estimation à faible \textit{biais}. Ces observations conduisent à une extension de l’algorithme Proximal Policy Optimization que nous appelons \textit{Architecture à Réseaux Doubles} (DNA), qui s’avère nettement supérieure à sa version initiale. La méthode DNA dépasse également les performances de l’algorithme Rainbow DQN, largement utilisé, sur quatre des cinq environnements testés, même dans des conditions de contrôle stochastique plus difficiles.