HyperAIHyperAI

Command Palette

Search for a command to run...

Étude à grande échelle de l'apprentissage motivé par la curiosité

Résumé

Les algorithmes d'apprentissage par renforcement s'appuient sur une ingénierie minutieuse des récompenses de l'environnement qui sont extrinsèques à l'agent. Cependant, l'annotation de chaque environnement avec des récompenses denses conçues manuellement n'est pas scalable, ce qui motive la nécessité de développer des fonctions de récompense intrinsèques à l'agent. La curiosité est un type de fonction de récompense intrinsèque qui utilise l'erreur de prédiction comme signal de récompense. Dans cet article : (a) Nous menons la première étude à grande échelle sur l'apprentissage uniquement guidé par la curiosité, c'est-à-dire sans aucune récompense extrinsèque, dans 54 environnements standards de référence, y compris la suite de jeux Atari. Nos résultats montrent des performances surprenantes et un haut degré d'alignement entre l'objectif intrinsèque de curiosité et les récompenses extrinsèques conçues manuellement dans de nombreux environnements de jeu. (b) Nous examinons l'effet de l'utilisation d'espaces caractéristiques différents pour calculer l'erreur de prédiction et montrons que les caractéristiques aléatoires suffisent pour beaucoup de benchmarks populaires en apprentissage par renforcement (RL), mais les caractéristiques apprises semblent généraliser mieux (par exemple, aux niveaux inédits dans Super Mario Bros.). (c) Nous démontrons les limites des récompenses basées sur la prédiction dans les configurations stochastiques. Les vidéos du jeu et le code sont disponibles à l'adresse https://pathak22.github.io/large-scale-curiosity/


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Étude à grande échelle de l'apprentissage motivé par la curiosité | Articles | HyperAI