HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage par renforcement profond avec double Q-apprentissage

Hado van Hasselt; Arthur Guez; David Silver

Résumé

L'algorithme de Q-learning populaire est connu pour surestimer les valeurs d'action sous certaines conditions. Il n'était pas clair jusqu'à présent si, en pratique, de telles surestimations étaient courantes, si elles nuisaient aux performances et si elles pouvaient généralement être évitées. Dans cet article, nous répondons par l'affirmative à toutes ces questions. Plus précisément, nous montrons d'abord que l'algorithme DQN récent, qui combine le Q-learning avec un réseau neuronal profond, souffre de surestimations importantes dans certains jeux du domaine Atari 2600. Nous démontrons ensuite que l'idée derrière l'algorithme Double Q-learning, introduit initialement dans un cadre tabulaire, peut être généralisée pour fonctionner avec des approximations de fonctions à grande échelle. Nous proposons une adaptation spécifique de l'algorithme DQN et montrons que l'algorithme résultant non seulement réduit les surestimations observées, comme prévu, mais qu'il améliore également considérablement les performances sur plusieurs jeux.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage par renforcement profond avec double Q-apprentissage | Articles | HyperAI