11일 전

CURL: 강화학습을 위한 대조형 비지도 표현

Aravind Srinivas, Michael Laskin, Pieter Abbeel
CURL: 강화학습을 위한 대조형 비지도 표현
초록

우리는 강화학습을 위한 대조적 비지도 표현 기법인 CURL(Contrastive Unsupervised Representations for Reinforcement Learning)을 제안한다. CURL은 대조 학습을 활용해 원시 픽셀에서 고수준 특징을 추출하고, 추출된 특징 위에서 오프폴리시(off-policy) 제어를 수행한다. CURL은 DeepMind Control Suite와 Atari 게임에서 복잡한 작업에 대해 기존의 픽셀 기반 방법들—모델 기반 및 모델 자유형 모두—보다 우수한 성능을 보이며, 각각 100K 환경 단계 및 상호작용 단계 기준에서 1.9배와 1.2배의 성능 향상을 달성했다. DeepMind Control Suite에서 CURL은 상태 기반 특징을 사용하는 방법의 샘플 효율성에 거의 근접한 최초의 이미지 기반 알고리즘이다. 본 연구의 코드는 오픈소스로 공개되었으며, https://github.com/MishaLaskin/curl에서 확인할 수 있다.

CURL: 강화학습을 위한 대조형 비지도 표현 | 최신 연구 논문 | HyperAI초신경