HyperAIHyperAI
il y a 2 mois

StarCraft II : Un Nouveau Défi pour l'Apprentissage par Renforcement

Oriol Vinyals; Timo Ewalds; Sergey Bartunov; Petko Georgiev; Alexander Sasha Vezhnevets; Michelle Yeo; Alireza Makhzani; Heinrich Küttler; John Agapiou; Julian Schrittwieser; John Quan; Stephen Gaffney; Stig Petersen; Karen Simonyan; Tom Schaul; Hado van Hasselt; David Silver; Timothy Lillicrap; Kevin Calderone; Paul Keet; Anthony Brunasso; David Lawrence; Anders Ekermo; Jacob Repp; Rodney Tsing
StarCraft II : Un Nouveau Défi pour l'Apprentissage par Renforcement
Résumé

Ce document présente SC2LE (StarCraft II Learning Environment), un environnement d'apprentissage par renforcement basé sur le jeu StarCraft II. Ce domaine pose un nouveau défi majeur pour l'apprentissage par renforcement, représentant une classe de problèmes plus difficile que celle considérée dans la plupart des travaux antérieurs. Il s'agit d'un problème à plusieurs agents avec des interactions entre plusieurs joueurs ; il y a une information imparfaite en raison d'une carte partiellement observée ; il dispose d'un vaste espace d'action impliquant la sélection et le contrôle de centaines d'unités ; il possède un vaste espace d'état qui doit être observé uniquement à partir de plans de caractéristiques brutes ; et il nécessite une attribution différée du crédit, exigeant des stratégies à long terme sur des milliers d'étapes.Nous décrivons la spécification des observations, des actions et des récompenses pour le domaine StarCraft II et fournissons une interface Python open source pour communiquer avec le moteur de jeu. En plus des cartes principales du jeu, nous proposons une série de mini-jeux axés sur différents éléments du gameplay de StarCraft II. Pour les cartes principales du jeu, nous fournissons également un ensemble de données de rediffusion de parties provenant de joueurs experts humains.Nous présentons les résultats initiaux de référence pour les réseaux neuronaux formés à partir de ces données afin de prédire les résultats du jeu et les actions des joueurs. Enfin, nous présentons les résultats initiaux de référence pour des agents d'apprentissage profond par renforcement appliqués au domaine StarCraft II. Dans les mini-jeux, ces agents apprennent à atteindre un niveau de jeu comparable à celui d'un joueur débutant. Cependant, lorsqu'ils sont formés sur le jeu principal, ces agents ne parviennent pas à faire des progrès significatifs.Ainsi, SC2LE offre un nouvel environnement complexe et stimulant pour explorer les algorithmes et architectures d'apprentissage profond par renforcement.