2ヶ月前

Atariのためのモデルベース強化学習

Lukasz Kaiser; Mohammad Babaeizadeh; Piotr Milos; Blazej Osinski; Roy H Campbell; Konrad Czechowski; Dumitru Erhan; Chelsea Finn; Piotr Kozakowski; Sergey Levine; Afroz Mohiuddin; Ryan Sepassi; George Tucker; Henryk Michalewski
Atariのためのモデルベース強化学習
要約

モデルフリーの強化学習(Reinforcement Learning: RL)は、アタリゲームのような複雑なタスクにおいて、画像観測からも効果的な方策を学習することができます。しかし、通常これには非常に多くの相互作用が必要であり、実際には人間が同じゲームを学習するために必要とする量よりも遥かに多いです。人はなぜこれほど早く学習できるのでしょうか?その答えの一部は、人がゲームの仕組みを理解し、望ましい結果につながる行動を予測できる能力にあるかもしれません。本論文では、ビデオ予測モデルが同様にエージェントに少ない相互作用でアタリゲームを解くことを可能にする方法を探ります。私たちはシミュレーテッド・ポリシー・ラーニング(Simulated Policy Learning: SimPLe)という、ビデオ予測モデルに基づいた完全なモデルベースの深層強化学習アルゴリズムについて説明し、いくつかのモデルアーキテクチャ(うち新しいアーキテクチャが最良の結果を示しています)の比較を行います。実験では、エージェントと環境との間で10万回の相互作用(これはリアルタイムで約2時間相当のプレイ時間に対応します)という低データ状況下でSimPLeを評価しました。ほとんどのゲームにおいてSimPLeは最先端のモデルフリーアルゴリズムを上回り、あるゲームではその1桁以上も優れた性能を発揮しました。