17일 전

다중 작업 강화 학습의 소프트 모듈화

Ruihan Yang, Huazhe Xu, Yi Wu, Xiaolong Wang
다중 작업 강화 학습의 소프트 모듈화
초록

다중작업 학습은 강화 학습 분야에서 매우 도전적인 문제이다. 여러 작업을 함께 학습함으로써 정책이 서로 다른 작업 간에 파라미터를 공유할 수는 있지만, 최적화 문제는 복잡해진다. 즉, 네트워크 내에서 어떤 파라미터를 작업 간에 재사용해야 할지 명확하지 않으며, 서로 다른 작업에서 발생하는 기울기들이 서로 어떻게 간섭할지도 불분명하다. 따라서 작업 간에 단순히 파라미터를 공유하는 방식을 피하고, 정책 표현에 명시적인 모듈화 기법을 도입하여 이 최적화 문제를 완화한다. 기반 정책 네트워크를 기반으로, 각 작업에 맞게 기반 네트워크를 재구성하기 위한 다양한 라우팅 전략을 추정하는 라우팅 네트워크를 설계하였다. 각 작업에 대해 직접적인 경로 선택 대신, 작업별 정책은 소프트 모듈화(soft modularization)라는 방법을 사용하여 가능한 모든 경로를 부드럽게 결합한다. 이는 순차적 작업에 특히 적합하다. 우리는 시뮬레이션 환경에서 다양한 로봇 조작 작업을 대상으로 실험을 수행하였으며, 제안하는 방법이 강력한 기준 모델 대비 샘플 효율성과 성능 모두에서 크게 개선됨을 보였다.

다중 작업 강화 학습의 소프트 모듈화 | 최신 연구 논문 | HyperAI초신경