2ヶ月前

学習モデルを用いた計画によってアタリ、碁、チェス、将棋を掌握する

Julian Schrittwieser; Ioannis Antonoglou; Thomas Hubert; Karen Simonyan; Laurent Sifre; Simon Schmitt; Arthur Guez; Edward Lockhart; Demis Hassabis; Thore Graepel; Timothy Lillicrap; David Silver
学習モデルを用いた計画によってアタリ、碁、チェス、将棋を掌握する
要約

計画機能を持つエージェントの構築は、人工知能の追求における主要な課題の一つでした。木構造に基づく計画手法は、チェスや囲碁などの完璧なシミュレータが利用可能な挑戦的な領域で大きな成功を収めてきました。しかし、現実世界の問題では環境を支配する動態がしばしば複雑かつ未知であるため、これらの手法は適用しづらい状況にあります。本研究では、木構造に基づく探索と学習モデルを組み合わせたMuZeroアルゴリズムを提示します。このアルゴリズムは、環境の基礎となる動態に関する知識なしに、一連の挑戦的で視覚的に複雑な領域で超人的な性能を達成します。MuZeroは反復適用することで、計画にとって最も直接的に関連のある量である報酬、行動選択方策、および価値関数を予測するモデルを学習します。57種類の異なるアタリゲーム(AI技術のテストに用いられる標準的なビデオゲーム環境であり、モデルベースの計画手法が歴史的に苦戦してきた分野)において評価した結果、当アルゴリズムは新たな最先端の成果を達成しました。また、囲碁、チェス、将棋においてもゲームルールに関する知識なしに評価を行い、ルールが提供されたAlphaZeroアルゴリズムと同等の超人的な性能を達成しました。

学習モデルを用いた計画によってアタリ、碁、チェス、将棋を掌握する | 最新論文 | HyperAI超神経