
초록
우리는 강화학습을 위한 대조적 비지도 표현 기법인 CURL(Contrastive Unsupervised Representations for Reinforcement Learning)을 제안한다. CURL은 대조 학습을 활용해 원시 픽셀에서 고수준 특징을 추출하고, 추출된 특징 위에서 오프폴리시(off-policy) 제어를 수행한다. CURL은 DeepMind Control Suite와 Atari 게임에서 복잡한 작업에 대해 기존의 픽셀 기반 방법들—모델 기반 및 모델 자유형 모두—보다 우수한 성능을 보이며, 각각 100K 환경 단계 및 상호작용 단계 기준에서 1.9배와 1.2배의 성능 향상을 달성했다. DeepMind Control Suite에서 CURL은 상태 기반 특징을 사용하는 방법의 샘플 효율성에 거의 근접한 최초의 이미지 기반 알고리즘이다. 본 연구의 코드는 오픈소스로 공개되었으며, https://github.com/MishaLaskin/curl에서 확인할 수 있다.