GRI: 일반화 강화 모방 및 시각 기반 자율 주행에의 응용

심화 강화 학습(Deep Reinforcement Learning, DRL)은 자율 주행 및 로보틱스와 같은 복잡한 의사 결정 응용 분야에서 효과적인 것으로 입증되었습니다. 그러나 DRL은 높은 샘플 복잡성과 안정성 부족으로 유명하게 제약을 받고 있습니다. 전문가의 시연 등 사전 지식이 종종 이용 가능하지만, 이러한 문제를 완화하기 위해 활용하는 것은 어렵습니다. 본 논문에서는 탐색의 이점과 전문가 데이터를 결합하며, 어떠한 오프-정책(off-policy) RL 알고리즘에도 간단히 구현할 수 있는 새로운 방법인 일반화된 강화 모방(General Reinforced Imitation, GRI)을 제안합니다. 우리는 하나의 단순화된 가설을 세웁니다: 전문가의 시연은 기본 정책이 일정한 높은 보상을 받는 완벽한 데이터로 볼 수 있다는 것입니다. 이 가정에 기반하여, GRI는 오프라인 시연 에이전트(offline demonstration agent)라는 개념을 도입합니다. 이 에이전트는 온라인 RL 탐색 에이전트로부터 얻어진 경험과 동시에 처리되며 구분할 수 없는 전문가 데이터를 전송합니다. 우리는 우리의 접근 방식이 도시 환경에서 비전 기반 자율 주행에 큰 개선을 가져온다는 것을 보여주었습니다. 또한 다양한 오프-정책 RL 알고리즘을 사용하여 Mujoco 연속 제어 작업에서 GRI 방법을 검증하였습니다. 우리의 방법은 CARLA 리더보드에서 1위를 차지하였으며, 이전 최신 기술(state-of-the-art)인 World on Rails보다 17% 우수한 성능을 보였습니다.