HyperAIHyperAI
vor 2 Monaten

Schach und Shogi beherrschen durch Selbstspielen mit einem allgemeinen Reinforcement-Learning-Algorithmus

David Silver; Thomas Hubert; Julian Schrittwieser; Ioannis Antonoglou; Matthew Lai; Arthur Guez; Marc Lanctot; Laurent Sifre; Dharshan Kumaran; Thore Graepel; Timothy Lillicrap; Karen Simonyan; Demis Hassabis
Schach und Shogi beherrschen durch Selbstspielen mit einem allgemeinen Reinforcement-Learning-Algorithmus
Abstract

Das Schachspiel ist das am häufigsten untersuchte Gebiet in der Geschichte der Künstlichen Intelligenz. Die leistungsfähigsten Programme basieren auf einer Kombination fortschrittlicher Suchverfahren, domänenspezifischer Anpassungen und von menschlichen Experten über mehrere Jahrzehnte hinweg verfeinerten Bewertungsfunktionen. Im Gegensatz dazu erreichte das Programm AlphaGo Zero kürzlich eine übermenschliche Leistung im Spiel Go durch lernprozesse ohne vorbestimmtes Wissen (tabula rasa) aus Selbstspielen. In dieser Arbeit verallgemeinern wir diesen Ansatz zu einem einzigen AlphaZero-Algorithmus, der in vielen herausfordernden Domänen eine übermenschliche Leistung erzielen kann, ebenfalls ohne vorbestimmtes Wissen (tabula rasa). Ausgehend von zufälligem Spiel und ohne weitere Kenntnisse als die Spielregeln erreichte AlphaZero innerhalb von 24 Stunden eine übermenschliche Spielstärke sowohl im Schachspiel als auch im Shogi (Japanisches Schach) und Go, und besiegte in jedem Fall ein Weltmeisterprogramm überzeugend.

Schach und Shogi beherrschen durch Selbstspielen mit einem allgemeinen Reinforcement-Learning-Algorithmus | Neueste Forschungsarbeiten | HyperAI