GenAD: 생성형 엔드투엔드 자율주행

원시 센서 데이터로부터 직접 계획 결과를 생성하는 것은 자율주행 분야에서 오랫동안 간절히 추구해온 해결책이며, 최근 들어 점점 더 많은 관심을 받고 있다. 기존의 대부분의 엔드투엔드 자율주행 방법들은 이 문제를 인지, 운동 예측, 계획으로 분해한다. 그러나 우리는 기존의 점진적 파이프라인 방식이 여전히 전체 교통 환경의 진화 과정을 포괄적으로 모델링하지 못한다고 주장한다. 예를 들어, 자기 차량과 다른 교통 참가자 간의 미래 상호작용이나 구조적 경로 사전 지식(trajectory prior)을 충분히 반영하지 못한다는 점이다. 본 논문에서는 과거 장면을 바탕으로 자기 차량과 주변 환경이 어떻게 진화할지를 예측하는 것이 핵심인 새로운 엔드투엔드 자율주행 패러다임을 탐구한다. 우리는 자율주행을 생성 모델링 문제로 재정의하는 GenAD라는 생성형 프레임워크를 제안한다. 먼저, 주변 환경을 맵 인식형 인스턴스 토큰으로 변환하는 인스턴스 중심의 장면 토크나이저를 제안한다. 이후 변분 오토인코더(Variational Autoencoder)를 활용하여 구조적 잠재 공간에서 미래 경로 분포를 학습함으로써 경로 사전 지식을 모델링한다. 더불어, 잠재 공간 내에서 에이전트와 자기 차량의 시간적 움직임을 포착하는 시간 모델을 도입하여 보다 효과적인 미래 경로를 생성한다. GenAD는 학습된 구조적 잠재 공간에서 인스턴스 토큰을 조건으로 분포 샘플링을 수행함과 동시에 학습된 시간 모델을 활용하여 미래를 생성함으로써, 운동 예측과 계획을 동시에 수행한다. 널리 사용되는 nuScenes 벤치마크에서 실시한 광범위한 실험 결과, 제안하는 GenAD는 시각 중심 엔드투엔드 자율주행에서 뛰어난 성능을 달성하며 높은 효율성을 보였다. 코드: https://github.com/wzzheng/GenAD.