URLB 강화 학습 데이터 세트
날짜
3년 전
발행 주소
URLB는 Unsupervised Reinforcement Learning Benchmark의 약자로, 비지도 강화 학습 데이터 세트입니다. URLB는 두 단계로 구성됩니다. 보상이 없는 사전 학습 단계와 외부 보상이 있는 하위 작업 적응 단계입니다. DeepMind Control Suite를 기반으로 하는 이 데이터 세트는 평가를 위해 3개 도메인의 12개 연속 제어 작업을 제공합니다.