역사적 객체 예측을 통한 다중 시점 3D 객체 탐지기의 시계열 강화 학습

이 논문에서는 다중 시점 3D 감지에서 시간 정보를 보다 효과적으로 활용하기 위해, 새로운 패러다임인 역사적 객체 예측(Historical Object Prediction, HoP)을 제안한다. HoP 접근법은 간단명료하다: 현재 타임스탬프 t를 기준으로, 인접한 프레임들로부터 타임스탬프 t-k의 가상 Bird's-Eye View(BEV) 특징을 생성하고, 이를 사용해 타임스탬프 t-k의 객체 집합을 예측한다. 이 접근법은 과거 타임스탬프에서 발생하는 객체의 공간적 위치와 시간적 운동을 동시에 포착하도록 감지기 학습을 유도할 경우, 더 정확한 BEV 특징 학습이 가능하다는 관찰에서 착안되었다. 먼저, 타임스탬프 t-k에 대한 가상 BEV 특징을 해당 카메라 이미지 없이 생성할 수 있는 단기 및 장기 시간 디코더를 세심하게 설계하였다. 또한, 생성된 가상 BEV 특징을 사용해 객체 타겟을 예측하기 위해 추가적인 객체 디코더를 유연하게 연결하였다. 참고로 HoP는 학습 과정에서만 수행되며, 추론 시 추가적인 부담을 유발하지 않는다. 플러그 앤 플레이 방식으로 설계되어, BEVFormer 및 BEVDet 시리즈와 같은 최신 BEV 감지 프레임워크에 쉽게 통합할 수 있다. 더불어, 보조적인 HoP 접근법은 기존의 일반적인 시간 모델링 방법과 상호보완적이며, 상당한 성능 향상을 이끌어낸다. 제안된 HoP의 효과를 검증하기 위해 nuScenes 데이터셋에서 광범위한 실험을 수행하였다. 대표적인 방법으로 BEVFormer과 BEVDet4D-Depth를 선택하여 본 방법을 평가하였다. 놀랍게도, HoP는 ViT-L 기반 모델로 nuScenes 테스트에서 NDS 68.5%, mAP 62.4%를 달성하여 리더보드상의 모든 3D 객체 감지기들을 능가하였다. 코드는 https://github.com/Sense-X/HoP 에서 공개될 예정이다.