Command Palette
Search for a command to run...
非同期法による深強化学習の方法
非同期法による深強化学習の方法
Volodymyr Mnih; Adrià Puigdomènech Badia; Mehdi Mirza; Alex Graves; Timothy P. Lillicrap; Tim Harley; David Silver; Koray Kavukcuoglu
概要
私たちは、深層強化学習のための概念的に単純で軽量なフレームワークを提案します。このフレームワークは、深層ニューラルネットワークコントローラーの最適化に非同期勾配降下法を使用します。4つの標準的な強化学習アルゴリズムの非同期変種を提示し、並列アクター・ラーナーが学習の安定化に寄与することを示します。これにより、4つの手法すべてがニューラルネットワークコントローラーの学習に成功しました。最も性能が高い方法であるアクター・クリティックの非同期変種は、単一のマルチコアCPU(GPUではなく)で半分の時間で学習することで、アタリ領域において現行の最先端技術を上回りました。さらに、非同期アクター・クリティックは、連続的なモータ制御問題や視覚入力を使用したランダム3D迷路でのナビゲーションという新しい課題でも成功していることを示しています。