HyperAIHyperAI
il y a 2 mois

Architectures de réseaux duels pour l'apprentissage par renforcement profond

Ziyu Wang; Tom Schaul; Matteo Hessel; Hado van Hasselt; Marc Lanctot; Nando de Freitas
Architectures de réseaux duels pour l'apprentissage par renforcement profond
Résumé

Ces dernières années ont vu de nombreux succès dans l'utilisation de représentations profondes en apprentissage par renforcement. Néanmoins, beaucoup de ces applications utilisent encore des architectures conventionnelles, telles que les réseaux de neurones convolutifs, les LSTM (Long Short-Term Memory) ou les auto-encodeurs. Dans cet article, nous présentons une nouvelle architecture de réseau neuronal pour l'apprentissage par renforcement sans modèle. Notre réseau duel représente deux estimateurs distincts : un pour la fonction de valeur d'état et un autre pour la fonction d'avantage d'action dépendante de l'état. Le principal avantage de cette factorisation est de généraliser l'apprentissage sur les actions sans imposer aucun changement à l'algorithme d'apprentissage par renforcement sous-jacent. Nos résultats montrent que cette architecture conduit à une meilleure évaluation des politiques en présence d'actions aux valeurs similaires. De plus, l'architecture duel permet à notre agent d'apprentissage par renforcement de surpasser l'état de l'art dans le domaine Atari 2600.