HyperAI
Command Palette
Search for a command to run...
URLB 강화 학습 데이터 세트
URLB는 Unsupervised Reinforcement Learning Benchmark의 약자로, 비지도 강화 학습 데이터 세트입니다. URLB는 두 단계로 구성됩니다. 보상이 없는 사전 학습 단계와 외부 보상이 있는 하위 작업 적응 단계입니다. DeepMind Control Suite를 기반으로 하는 이 데이터 세트는 평가를 위해 3개 도메인의 12개 연속 제어 작업을 제공합니다.
이 데이터셋은 커뮤니티 사용자가 기여한 것이며 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.