초록
우리는 경쟁 목표를 우선순위에 따라 학습하는 계층적 추상화의 새로운 방법을 제시합니다. 이 방법은 여러 스칼라 출력을 가진 보조 보상 에이전트를 사용하여 전역 기대 보상을 개선합니다. 각 출력은 고유한 추상화 수준과 연관되어 있으며, 전통적인 에이전트는 이러한 출력들을 계층적으로 최대화하도록 학습합니다. 각 수준은 앞선 수준의 최대화를 조건으로 합니다. 우리는 이러한 스칼라 값들과 전역 보상을 우선순위에 따라 정렬하는 방정식을 도출하였습니다. 이 방정식은 필요성의 계층구조를 유도하여 목표 설정을 안내합니다. 펜듈럼 v1 환경에서 수행된 실험 결과는 기존 구현에 비해 우수한 성능을 보였으며, 우리는 최고 수준의 결과를 달성하였습니다.