
초록
본 논문은 에이전트의 과거 좋은 결정을 재현하도록 학습하는 간단한 오프-폴리시 액터-크리틱 알고리즘인 자기 모방 학습(Self-Imitation Learning, SIL)을 제안합니다. 이 알고리즘은 과거 좋은 경험을 활용함으로써 깊은 탐색을 간접적으로 유도할 수 있다는 가설을 검증하기 위해 설계되었습니다. 실험 결과에 따르면, SIL은 어려운 탐색이 필요한 여러 아타리 게임에서 A2C(Advantage Actor-Critic)의 성능을 크게 향상시키며, 최신 카운트 기반 탐색 방법들과 경쟁력을 보입니다. 또한, SIL이 MuJoCo 작업에서 근접 정책 최적화(Proximal Policy Optimization, PPO)의 성능을 개선한다는 점도 확인하였습니다.