11일 전
쿠프만 Q-러닝: 동역학의 대칭성을 통한 오프라인 강화학습
Matthias Weissenbacher, Samarth Sinha, Animesh Garg, Yoshinobu Kawahara

초록
오프라인 강화학습은 환경과의 상호작용 없이도 대규모 데이터셋을 활용하여 정책을 학습할 수 있도록 한다. 학습된 정책은 상호작용이 비용이 크거나 위험한 실제 환경에 배포될 수 있다. 그러나 현재의 알고리즘들은 훈련 데이터셋에 과적합되어, 환경의 분포를 벗어난 일반화 상황에 배포되었을 때 성능이 저하되는 문제가 있다. 본 연구에서는 시스템의 기본 동역학에 대한 대칭성을 추론할 수 있는 쿠퍼만(Koopman) 잠재 표현을 학습함으로써 이러한 한계를 극복하고자 한다. 이를 통해 훈련 중 기존의 정적인 오프라인 데이터셋을 시스템의 동역학적 특성을 반영하여 확장할 수 있으며, 이는 새로운 형태의 데이터 증강 프레임워크를 구성한다. 이 프레임워크는 환경의 위상공간을 탐색하는 것으로 해석될 수 있다. 대칭성을 추출하기 위해 우리는 비선형 동역학을 시스템의 측정 함수 공간 위에서 작용하는 선형 연산자로 표현하는 쿠퍼만 이론을 활용하며, 이에 따라 동역학의 대칭성은 직접적으로 추론할 수 있다. 본 연구는 강화학습과 같은 제어 시스템에 관련된 대칭성의 존재성과 성질에 대해 새로운 이론적 결과를 제시한다. 더불어, D4RL, Metaworld, Robosuite 등 여러 벤치마크 오프라인 강화학습 작업과 데이터셋을 대상으로 본 방법의 실증적 평가를 수행한 결과, 모델-프리 Q-학습 방법의 기존 최고 성능을 일관되게 향상시킬 수 있음을 확인하였다.