
초록
우리는 사전 녹화된 주행 로그를 통해 모델 기반 접근 방식을 사용하여 상호작용적인 시각 기반 주행 정책을 학습합니다. 세계의 전방 모델은 잠재적인 모든 주행 경로의 결과를 예측하는 주행 정책을 감독합니다. 사전 녹화된 로그에서 학습을 지원하기 위해, 우리는 에이전트나 그 행동이 환경에 영향을 미치지 않는다는 '레일 위의 세계'라는 가정을 합니다. 이 가정은 학습 문제를 크게 단순화하며, 동역학을 비반응형 세계 모델과 차량 자체의 저차원적이고 컴팩트한 전방 모델로 분리합니다. 우리의 접근 방식은 벨만 방정식의 표 형식 동적 프로그래밍 평가를 통해 각 훈련 경로에 대한 행동 가치를 계산하며, 이러한 행동 가치는 다시 최종 시각 기반 주행 정책을 감독합니다. '레일 위의 세계' 가정에도 불구하고, 최종 주행 정책은 동적이고 반응형인 세계에서 잘 작동합니다. 본 연구가 작성되는 시점에서, 우리의 방법은 CARLA 리더보드에서 1위를 차지하고 있으며, 40배 적은 데이터를 사용하면서도 25% 높은 주행 점수를 얻었습니다. 또한 우리의 방법은 ProcGen 벤치마크에서 탐색 과제에 대한 최신 모델 없는 강화 학습 기술보다 샘플 효율성이 10배 이상 높습니다.