2달 전
다양한 크기 순서에서의 가치 학습
Hado van Hasselt; Arthur Guez; Matteo Hessel; Volodymyr Mnih; David Silver

초록
대부분의 학습 알고리즘은 근사화하려는 함수의 스케일에 불변하지 않습니다. 우리는 학습에서 사용되는 타겟을 적응적으로 정규화하는 방법을 제안합니다. 이 방법은 가치 기반 강화학습에서 유용합니다. 행동 정책을 업데이트하면서 적절한 가치 근사치의 크기가 시간이 지남에 따라 변할 수 있기 때문입니다. 우리의 주요 동기는 아타리 게임을 학습하기 위한 이전 연구입니다. 해당 연구에서는 보상이 모두 사전 결정된 범위로 클리핑되었습니다. 이러한 클리핑은 단일 학습 알고리즘으로 많은 다른 게임에서 학습을 용이하게 하지만, 클리핑된 보상 함수는 질적으로 다른 행동을 초래할 수 있습니다. 적응적 정규화를 사용하면 전체 성능을 저하시키지 않으면서 이러한 도메인 특유의 휴리스틱을 제거할 수 있습니다.