HyperAIHyperAI

Command Palette

Search for a command to run...

Apprentissage de valeurs sur plusieurs ordres de grandeur

Hado van Hasselt Arthur Guez Matteo Hessel Volodymyr Mnih David Silver

Résumé

La plupart des algorithmes d'apprentissage ne sont pas invariants par rapport à l'échelle de la fonction qu'ils cherchent à approximer. Nous proposons d'adapter la normalisation des cibles utilisées dans l'apprentissage. Cette approche est particulièrement utile en apprentissage par renforcement basé sur les valeurs, où la magnitude des approximations de valeur appropriées peut varier au fil du temps lorsque nous mettons à jour la politique de comportement. Notre principale motivation provient des travaux antérieurs sur l'apprentissage pour jouer aux jeux Atari, où les récompenses étaient toutes limitées à une plage prédéfinie. Cette limitation facilite l'apprentissage sur de nombreux jeux différents avec un seul algorithme d'apprentissage, mais une fonction de récompense limitée peut entraîner un comportement qualitativement différent. En utilisant la normalisation adaptative, nous pouvons supprimer cette heuristique spécifique au domaine sans diminuer les performances globales.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Apprentissage de valeurs sur plusieurs ordres de grandeur | Articles | HyperAI