2ヶ月前
自己対戦による将棋とチェスの習得:一般的強化学習アルゴリズムの活用
David Silver; Thomas Hubert; Julian Schrittwieser; Ioannis Antonoglou; Matthew Lai; Arthur Guez; Marc Lanctot; Laurent Sifre; Dharshan Kumaran; Thore Graepel; Timothy Lillicrap; Karen Simonyan; Demis Hassabis

要約
チェスは、人工知能の歴史において最も広く研究されてきた分野です。最強のプログラムは、洗練された探索技術、分野特有の適応、そして数十年にわたる人間の専門家によって改良された手作りの評価関数を組み合わせて構築されています。一方、AlphaGo Zeroプログラムは、自己対戦からのタブーラ・ラサ(白紙状態)強化学習により、囲碁で超人的な性能を達成しました。本論文では、このアプローチを一般化し、複数の挑戦的な分野でタブーラ・ラサ(白紙状態)から超人的な性能を達成できる単一のAlphaZeroアルゴリズムを開発しました。ランダムなプレイから始め、ゲームルール以外の分野知識を与えない条件下で、AlphaZeroは24時間以内にチェスと将棋(日本のチェス)、そして囲碁で超人的なレベルに到達し、それぞれの場合において世界チャンピオン級のプログラムを明確に破りました。