
초록
우리는 특권을 가진 교사 에이전트의 감독 하에 센서모터 학습생 에이전트가 운전하는 것을 효과적으로 가르치기 위한 새로운 지식 전달 프레임워크를 제안합니다. 현재 센서모터 에이전트의 지식 전달 방법은 학습생의 학습된 운전 행동이 최적화되지 않는 경향이 있으며, 이는 두 에이전트 간의 입력, 모델링 능력 및 최적화 과정의 본질적인 차이 때문이라고 추측됩니다. 우리는 이러한 한계를 극복하고 센서모터 에이전트와 그 특권을 가진 교사 사이의 격차를 줄일 수 있는 새로운 지식 전달 방안을 개발하였습니다. 우리의 주요 통찰력은 학습생이 교사의 특권을 가진 새끼새 시점(Bird's Eye View, BEV) 공간과 입력 특성을 일치시키도록 설계하는 것입니다. 이를 통해 학습생은 내부 표현 학습에서 교사로부터 직접적인 감독을 받을 수 있습니다. 복잡한 센서모터 학습 작업을 지원하기 위해, 학습생 모델은 다양한 보조 감독을 통해 자기 속도에 맞는 코칭 메커니즘으로 최적화됩니다. 또한, 우리는 CARLA에서 이전 특권 에이전트들을 능가하는 고용량 모방 학습된 특권 에이전트를 제안하며, 이는 학습생이 안전한 운전 행동을 배울 수 있도록 보장합니다. 우리 제안의 센서모터 에이전트는 LiDAR, 과거 관찰, 모델 앙상블, 정책 기반 데이터 집합 또는 강화학습 없이도 CARLA에서 현재 모델들보다 20.6% 이상 높은 운전 점수를 달성하는 강건한 이미지 기반 행동 복제 에이전트를 생성합니다.