HyperAIHyperAI

Command Palette

Search for a command to run...

Contrôle au niveau humain par apprentissage par renforcement profond

Résumé

La théorie de l’apprentissage par renforcement fournit un cadre normatif, profondément ancré dans les perspectives psychologiques et neuroscientifiques du comportement animal, sur la manière dont les agents peuvent optimiser leur contrôle d’un environnement. Toutefois, pour appliquer efficacement l’apprentissage par renforcement dans des situations approchant la complexité du monde réel, les agents doivent relever un défi difficile : ils doivent extraire des représentations efficaces de l’environnement à partir d’entrées sensorielles à haute dimension, et les utiliser pour généraliser leurs expériences passées à de nouvelles situations. De manière remarquable, les humains et d’autres animaux semblent résoudre ce problème grâce à une combinaison harmonieuse entre apprentissage par renforcement et systèmes hiérarchiques de traitement sensoriel, le premier étant soutenu par une abondance de données neuronales révélant des analogies notables entre les signaux phasiques émis par les neurones dopaminergiques et les algorithmes d’apprentissage par différence temporelle. Bien que les agents d’apprentissage par renforcement aient connu certains succès dans divers domaines, leur application était jusqu’à présent limitée à des domaines où des caractéristiques utiles pouvaient être conçues manuellement, ou à des domaines à espace d’état complètement observé et à faible dimension. Dans cet article, nous exploitons les avancées récentes dans l’entraînement des réseaux de neurones profonds pour développer un nouvel agent artificiel, appelé réseau Q profond (deep Q-network), capable d’apprendre des politiques efficaces directement à partir d’entrées sensorielles à haute dimension via un apprentissage par renforcement end-to-end. Nous avons testé cet agent sur le domaine exigeant des jeux classiques Atari 2600. Nous démontrons que l’agent réseau Q profond, recevant uniquement les pixels et le score du jeu en entrée, a surpassé les performances de tous les algorithmes précédents et atteint un niveau comparable à celui d’un joueur humain professionnel sur un ensemble de 49 jeux, en utilisant le même algorithme, la même architecture de réseau et les mêmes hyperparamètres. Ce travail comble le fossé entre les entrées sensorielles à haute dimension et les actions, marquant la première réalisation d’un agent artificiel capable d’apprendre à exceller dans une diversité de tâches complexes.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Contrôle au niveau humain par apprentissage par renforcement profond | Articles | HyperAI