HyperAIHyperAI
il y a 2 mois

Jouer à Atari avec Six Neurones

Giuseppe Cuccu; Julian Togelius; Philippe Cudre-Mauroux
Jouer à Atari avec Six Neurones
Résumé

L'apprentissage par renforcement profond, appliqué à des problèmes basés sur la vision tels que les jeux Atari, mappe directement les pixels aux actions ; internement, le réseau neuronal profond est responsable de l'extraction d'informations utiles et de la prise de décisions fondées sur ces informations. En séparant le traitement des images de la prise de décision, on pourrait mieux comprendre la complexité de chaque tâche, ainsi que potentiellement trouver des représentations de politiques plus petites qui seraient plus faciles pour les humains à comprendre et qui pourraient généraliser mieux. À cette fin, nous proposons une nouvelle méthode permettant d'apprendre les politiques et les représentations d'état compactes séparément mais simultanément pour l'approximation des politiques dans l'apprentissage par renforcement. Les représentations d'état sont générées par un encodeur basé sur deux nouveaux algorithmes : la Quantification Vectorielle à Dictionnaire Croissant rend l'encodeur capable d'augmenter sa taille de dictionnaire au fil du temps, afin d'aborder de nouvelles observations lorsqu'elles apparaissent dans un contexte d'apprentissage en ligne ouvert ; le Codage Épars Direct des Résidus encode les observations en ignorant la minimisation de l'erreur de reconstruction et visant plutôt l'inclusion maximale d'informations. L'encodeur sélectionne automatiquement les observations en ligne pour s'entraîner, afin de maximiser la parcimonie du code. Alors que la taille du dictionnaire augmente, l'encodeur produit des entrées de plus en plus grandes pour le réseau neuronal : cela est abordé par une variation de l'algorithme des Stratégies d'Évolution Naturelle Exponentielles qui adapte sa dimensionalité de distribution de probabilité tout au long du processus. Nous testons notre système sur une sélection de jeux Atari en utilisant des petits réseaux neuronaux ne comportant que 6 à 18 neurones (selon les contrôles du jeu). Ces réseaux sont encore capables d'obtenir des résultats comparables---et occasionnellement supérieurs---aux techniques de pointe qui utilisent deux ordres de grandeur plus de neurones.