
부트스트래핑(bootstrapping)은 강화학습(Reinforcement Learning, RL)의 핵심 메커니즘이다. 대부분의 알고리즘은 시간차(temporal difference) 기반으로, 상태 전이 시의 실제 가치를 그 상태에 대한 현재 추정치로 대체한다. 그러나 부트스트래핑을 위한 또 다른 추정치로 현재 정책(current policy)을 활용할 수 있다. 본 연구의 핵심 기여는 매우 단순한 아이디어에 기반한다: 즉, 즉각적인 보상에 스케일링된 정책 로그(log-policy)를 추가하는 것이다. 우리는 이러한 방식으로 딥 Q네트워크(DQN)를 약간 수정함으로써, 분포 기반 강화학습(distributional RL), n단계 리턴(n-step returns), 우선순위 재플레이(prioritized replay)를 사용하지 않고도 아타리(Atari) 게임에서 분포 기반 방법과 경쟁 가능한 성능을 달성하는 에이전트를 구현함을 보였다. 이 아이디어의 유연성을 입증하기 위해, 이를 은유적 양자화 네트워크(Implicit Quantile Network, IQN)와도 결합하여 실험하였다. 그 결과, 원래 알고리즘에 매우 소량의 수정만으로도 레인보우(Rainbow)를 능가하는 에이전트를 얻었으며, 이는 매우 적은 수정으로도 새로운 최고 성능(State of the Art)을 달성함을 보여준다. 이러한 실험적 성과를 보완하기 위해, 본 연구는 그 뒤에 숨겨진 메커니즘에 대한 강력한 이론적 통찰을 제시한다. 즉, 은유적 쿨백-라이블러(Kullback-Leibler) 정규화(implicit Kullback-Leibler regularization)의 발생과 행동 갭(action-gap)의 증가가 일어남을 밝혀냈다.