2ヶ月前
進化戦略を強化学習のスケーラブルな代替手段として
Tim Salimans; Jonathan Ho; Xi Chen; Szymon Sidor; Ilya Sutskever

要約
私たちは、Q学習や方策勾配法などの一般的なMDPベースの強化学習手法の代替として、進化戦略(Evolution Strategies: ES)という一連のブラックボックス最適化アルゴリズムの利用を検討しています。MuJoCoとAtariでの実験結果から、ESは利用可能なCPU数に非常に良くスケーリングする有効な解法戦略であることが示されました。当社が開発した新しい通信戦略(共通乱数に基づくもの)により、ESの実装ではスカラーのみを通信する必要があり、これにより1,000以上の並列ワーカーへのスケーリングが可能となりました。この方法によって、3次元ヒューマノイド歩行を10分で解決し、1時間の学習後にはほとんどのAtariゲームで競争力のある結果を得ることができました。さらに、ESがブラックボックス最適化技術として持ついくつかの利点についても強調します。ESはアクション頻度や遅延報酬に対して不変であり、非常に長い時間軸にも耐えうるだけでなく、時間割引や価値関数近似を必要としません。