17일 전
IQ-Learn: 제어를 위한 역소프트-Q 학습
Divyansh Garg, Shuvam Chakraborty, Chris Cundy, Jiaming Song, Matthieu Geist, Stefano Ermon

초록
다수의 순차적 결정 문제(예: 로봇 제어, 게임 플레이, 순차적 예측)에서는 작업에 대한 유용한 정보를 담고 있는 인간 또는 전문가 데이터가 존재한다. 그러나 복잡한 동역학을 가진 고차원 환경에서는 소량의 전문가 데이터로부터의 모방 학습(Imitation Learning, IL)이 도전적일 수 있다. 행동 클론(behavioral cloning)은 구현이 간단하고 수렴이 안정적인 장점으로 널리 사용되는 단순한 방법이지만, 환경의 동역학에 관한 정보를 활용하지 못한다는 한계가 있다. 기존의 동역학 정보를 활용하는 많은 방법들은 보상 함수와 정책 근사기 사이의 적대적 최적화 과정이나 편향되며 분산이 큰 기울기 추정기로 인해 실질적인 학습이 어려운 경우가 많다. 본 연구에서는 보상과 정책을 암묵적으로 표현하는 단일 Q함수를 학습함으로써 적대적 학습을 피하는 동역학 인지형 모방 학습 방법을 제안한다. 표준 벤치마크에서 암묵적으로 학습된 보상은 실제 보상과 높은 양의 상관관계를 보이며, 이는 제안된 방법이 역강화 학습(Inverse Reinforcement Learning, IRL)에도 활용 가능함을 시사한다. 제안한 방법인 역소프트Q학습(Inverse soft-Q learning, IQ-Learn)은 오프라인 및 온라인 모방 학습 설정 모두에서 최신 기준을 초과하는 성능을 달성하며, 필요한 환경 상호작용 횟수와 고차원 공간에서의 확장성 측면에서 기존 방법보다 뚜렷하게 우수하며, 경우에 따라 3배 이상의 성능 향상을 기록한다.