il y a 2 mois

Maîtriser Atari, Go, Échecs et Shogi grâce à la planification avec un modèle appris

Julian Schrittwieser; Ioannis Antonoglou; Thomas Hubert; Karen Simonyan; Laurent Sifre; Simon Schmitt; Arthur Guez; Edward Lockhart; Demis Hassabis; Thore Graepel; Timothy Lillicrap; David Silver

Voir les détails de l'article

Maîtriser Atari, Go, Échecs et Shogi grâce à la planification avec un modèle appris

Résumé

La construction d'agents dotés de capacités de planification a longtemps été l'un des principaux défis dans la quête de l'intelligence artificielle. Les méthodes de planification basées sur les arbres ont connu un grand succès dans des domaines difficiles, tels que l'échec et le Go, où un simulateur parfait est disponible. Cependant, dans les problèmes du monde réel, les dynamiques qui gouvernent l'environnement sont souvent complexes et inconnues. Dans ce travail, nous présentons l'algorithme MuZero qui, en combinant une recherche basée sur les arbres avec un modèle appris, atteint des performances supérieures à celles de l'homme dans une gamme de domaines difficiles et visuellement complexes, sans aucune connaissance de leurs dynamiques sous-jacentes. MuZero apprend un modèle qui, lorsqu'il est appliqué itérativement, prédit les quantités directement pertinentes pour la planification : la récompense, la politique de sélection d'action et la fonction de valeur. Lorsqu'il a été évalué sur 57 jeux Atari différents - l'environnement vidéo ludique canonique pour tester les techniques d'IA, où les approches de planification basées sur les modèles ont historiquement eu du mal - notre nouvel algorithme a atteint un nouveau niveau d'excellence (state of the art). Lorsqu'il a été évalué sur le Go, l'échec et le shogi, sans aucune connaissance des règles du jeu, MuZero a égalé les performances supérieures à celles de l'homme de l'algorithme AlphaZero qui avait reçu les règles du jeu.