HyperAIHyperAI

Command Palette

Search for a command to run...

ADN : Optimisation de Politique Proche avec une Architecture de Réseau Dual

Matthew Aitchison Penny Sweetser

Résumé

Cet article explore le problème de l’apprentissage simultané d’une fonction de valeur et d’une politique dans les modèles d’apprentissage par renforcement profond du type actor-critic. Nous constatons que la pratique courante d’apprentissage conjoint de ces deux fonctions est sous-optimale, en raison d’un écart d’un ordre de grandeur entre les niveaux de bruit associés à ces deux tâches. En revanche, nous montrons qu’un apprentissage indépendant de ces tâches, mais suivi d’une phase de distillation contrainte, améliore significativement les performances. De plus, nous observons que les niveaux de bruit du gradient de politique peuvent être réduits en utilisant une estimation du retour à faible \textit{variance}, tandis que le niveau de bruit de l’apprentissage de la fonction de valeur diminue avec une estimation à faible \textit{biais}. Ces observations conduisent à une extension de l’algorithme Proximal Policy Optimization que nous appelons \textit{Architecture à Réseaux Doubles} (DNA), qui s’avère nettement supérieure à sa version initiale. La méthode DNA dépasse également les performances de l’algorithme Rainbow DQN, largement utilisé, sur quatre des cinq environnements testés, même dans des conditions de contrôle stochastique plus difficiles.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp