ST-P3: Spatial-Temporal Feature Learning을 통한 End-to-end 시각 기반 자율 주행

많은 기존의 자율 주행 패러다임은 여러 단계로 구성된 이산적인 작업 파이프라인을 포함하고 있습니다. 제어 신호를 더 정확히 예측하고 사용자 안전을 향상시키기 위해서는 공간-시간 특성 학습의 혜택을 받는 종단형 접근 방식이 바람직합니다. LiDAR 기반 입력이나 암시적 설계에 대한 몇몇 선구적인 연구가 있지만, 본 논문에서는 해석 가능한 비전 기반 환경에서 문제를 공식화하였습니다. 특히, 인식, 예측 및 계획 작업을 동시에 수행하기 위한 더 대표적인 특성을 추출하는 공간-시간 특성 학습 방안(ST-P3)을 제안합니다. 구체적으로, 3D 공간에서의 기하학적 정보를 보존하면서 상대 시점 변환(bird's eye view transformation) 전에 이를 누적하는 자기 중심 맞춤 누적 기술(egocentric-aligned accumulation technique)을 제안하였으며, 미래 예측을 위해 과거 운동 변화를 고려하는 이중 경로 모델링(dual pathway modeling) 방법론을 개발하였습니다. 또한, 계획 작업을 위한 비전 기반 요소 인식의 부족점을 보완하기 위해 시간 기반 정제 유닛(temporal-based refinement unit)을 도입하였습니다. 우리 지식으로 미루어 볼 때, 우리는 해석 가능한 종단형 비전 기반 자율 주행 시스템의 각 부분을 체계적으로 조사한 최초의 연구입니다. 우리는 개방 루프 nuScenes 데이터셋과 폐쇄 루프 CARLA 시뮬레이션에서 이전 최신 연구들과 비교하여 우리의 접근 방식을 벤치마킹하였습니다. 결과는 우리의 방법이 효과적임을 보여주고 있습니다. 소스 코드, 모델 및 프로토콜 세부사항은 https://github.com/OpenPerceptionX/ST-P3 에서 공개적으로 이용할 수 있습니다.