HyperAIHyperAI
il y a 2 mois

Maîtrise du jeu d'échecs et de shogi par apprentissage automatique avec un algorithme d'apprentissage par renforcement général

David Silver; Thomas Hubert; Julian Schrittwieser; Ioannis Antonoglou; Matthew Lai; Arthur Guez; Marc Lanctot; Laurent Sifre; Dharshan Kumaran; Thore Graepel; Timothy Lillicrap; Karen Simonyan; Demis Hassabis
Maîtrise du jeu d'échecs et de shogi par apprentissage automatique avec un algorithme d'apprentissage par renforcement général
Résumé

Le jeu d'échecs est le domaine le plus étudié dans l'histoire de l'intelligence artificielle. Les programmes les plus performants sont basés sur une combinaison de techniques de recherche sophistiquées, d'adaptations spécifiques au domaine et de fonctions d'évaluation conçues manuellement et affinées par des experts humains au fil de plusieurs décennies. En revanche, le programme AlphaGo Zero a récemment atteint un niveau de performance suprahumain dans le jeu de Go grâce à un apprentissage par renforcement à partir de zéro (tabula rasa) en jouant contre lui-même. Dans cet article, nous généralisons cette approche en un unique algorithme AlphaZero qui peut atteindre, à partir de zéro (tabula rasa), un niveau de performance suprahumain dans de nombreux domaines difficiles. Partant d'un jeu aléatoire et sans connaissances du domaine autres que les règles du jeu, AlphaZero a atteint en moins de 24 heures un niveau de jeu suprahumain dans les jeux d'échecs, de shogi (échecs japonais) et de Go, et a vaincu convaincement des programmes champions du monde dans chacun des cas.

Maîtrise du jeu d'échecs et de shogi par apprentissage automatique avec un algorithme d'apprentissage par renforcement général | Articles de recherche récents | HyperAI