2달 전

TBP-Former: 시각 중심 자율 주행에서 공동 인식 및 예측을 위한 시간적 조감도 피라미드 학습

Fang, Shaoheng ; Wang, Zi ; Zhong, Yiqi ; Ge, Junhao ; Chen, Siheng ; Wang, Yanfeng
TBP-Former: 시각 중심 자율 주행에서 공동 인식 및 예측을 위한 시간적 조감도 피라미드 학습
초록

비전 중심의 공동 인식 및 예측(Vision-centric Joint Perception and Prediction, PnP)은 자율 주행 연구에서 새로운 추세가 되고 있습니다. 이 기술은 원시 RGB 이미지로부터 주변 환경의 교통 참여자들의 미래 상태를 예측합니다. 그러나, 필연적인 기하학적 왜곡으로 인해 여러 카메라 시점과 시간 스탬프에서 얻은 특성을 동기화하고 이러한 시공간 특성을 더욱 활용하는 것은 여전히 중요한 과제입니다. 이 문제를 해결하기 위해, 우리는 비전 중심의 PnP를 위한 시각적 조감도 피라미드 변환기(Temporal Bird's-Eye-View Pyramid Transformer, TBP-Former)를 제안하며, 이는 두 가지 혁신적인 설계를 포함하고 있습니다. 첫째, 어떤 카메라 포즈와 시간에서도 원시 이미지 입력을 공유되고 동기화된 조감도 공간(Bird's-Eye-View space, BEV space)으로 매핑하기 위한 포즈 동기화 조감도 인코더(Pose-Synchronized BEV Encoder)가 제안되었습니다. 둘째, 시공간 피라미드 변환기가 도입되어 다중 규모의 조감도 특성을 종합적으로 추출하고 시공간 사전 지식(Spatial-Temporal Priors)의 지원 하에 미래의 조감도 상태를 예측합니다. nuScenes 데이터셋을 사용한 광범위한 실험 결과, 제안된 프레임워크가 전반적으로 모든 최신 비전 기반 예측 방법보다 우수한 성능을 보였습니다.

TBP-Former: 시각 중심 자율 주행에서 공동 인식 및 예측을 위한 시간적 조감도 피라미드 학습 | 최신 연구 논문 | HyperAI초신경