
초록
인기 있는 Q-러닝 알고리즘은 특정 조건 하에서 행동 가치를 과대평가하는 것으로 알려져 있습니다. 이전까지는 이러한 과대평가가 실제로 얼마나 자주 발생하며, 성능에 해를 끼치는지, 그리고 일반적으로 예방할 수 있는지 여부가 알려져 있지 않았�습니다. 본 논문에서는 이러한 모든 질문에 긍정적인 답변을 제시합니다. 특히, 최근의 DQN 알고리즘이 Q-러닝과 딥 신경망을 결합한 것이지만, Atari 2600 도메인의 일부 게임에서 상당한 과대평가를 겪고 있다는 점을 먼저 보여줍니다. 그 다음으로, 테이블 형식에서 소개된 Double Q-러닝 알고리즘의 아이디어가 대규모 함수 근사와 함께 일반화될 수 있음을 보여줍니다. 우리는 DQN 알고리즘에 대한 구체적인 개선 방안을 제안하고, 이로 인해 생성된 알고리즘이 가설대로 관찰된 과대평가를 줄이는 것뿐만 아니라 여러 게임에서 훨씬 더 우수한 성능을 발휘함을 보여줍니다.