17일 전
어떤 단계의 동적 모델이 온라인 및 오프라인 강화 학습을 위한 미래 예측을 개선한다
Haoxin Lin, Yu-Yan Xu, Yihao Sun, Zhilong Zhang, Yi-Chen Li, Chengxing Jia, Junyin Ye, Jiaji Zhang, Yang Yu

초록
강화학습에서 모델 기반 방법은 동적 모델 내에서 정책 탐색을 촉진함으로써 데이터 효율성을 향상시키는 유망한 접근 방식을 제공한다. 그러나 현재 상태의 예측 결과에 기반하여 다음 상태를 예측하는 부트스트래핑 예측 방식으로 인해 동적 모델에서 시퀀스 단계를 정확히 예측하는 것이 여전히 도전 과제이다. 이로 인해 모델 롤아웃 과정에서 오차가 누적되는 문제가 발생한다. 본 논문에서는 이러한 누적 오차를 완화하기 위해 부트스트래핑 예측을 직접 예측으로 줄이는 Any-step Dynamics Model(ADM)을 제안한다. ADM은 고정된 길이의 계획이 아닌 가변 길이의 계획을 입력으로 사용하여 미래 상태를 예측할 수 있도록 하여 빈번한 부트스트래핑을 피할 수 있다. 또한 ADM을 온라인 및 오프라인 모델 기반 프레임워크에 각각 적용하는 두 가지 알고리즘, ADMPO-ON과 ADMPO-OFF를 설계하였다. 온라인 환경에서는 ADMPO-ON이 기존 최고 수준의 방법들보다 더 뛰어난 샘플 효율성을 보였다. 오프라인 환경에서는 ADMPO-OFF가 최근 최고 수준의 오프라인 접근 방식들보다 우수한 성능을 발휘할 뿐만 아니라, 단일 ADM만을 사용함으로써 모델 불확실성에 대한 더 나은 정량화를 가능하게 한다.