
要約
本論文では、エージェントの過去の良い決定を再現することを学ぶ単純なオフポリシーのアクターキリティカルアルゴリズムである自己模倣学習(Self-Imitation Learning, SIL)を提案します。このアルゴリズムは、過去の良い経験を利用することで間接的に深層探索を促進するという仮説を検証するために設計されています。実験結果は、SILが複数の難易度の高い探索アタリゲームで優位性アクターキリティカル(Advantage Actor-Critic, A2C)の性能を大幅に向上させ、最先端のカウントベース探索手法と競争力があることを示しています。また、SILがミュージコ(MuJoCo)タスクにおいても近傍方策最適化(Proximal Policy Optimization, PPO)の性能を向上させることが確認されました。