11일 전

역사적 객체 예측을 통한 다중 시점 3D 객체 탐지기의 시계열 강화 학습

Zhuofan Zong, Dongzhi Jiang, Guanglu Song, Zeyue Xue, Jingyong Su, Hongsheng Li, Yu Liu
역사적 객체 예측을 통한 다중 시점 3D 객체 탐지기의 시계열 강화 학습
초록

이 논문에서는 다중 시점 3D 감지에서 시간 정보를 보다 효과적으로 활용하기 위해, 새로운 패러다임인 역사적 객체 예측(Historical Object Prediction, HoP)을 제안한다. HoP 접근법은 간단명료하다: 현재 타임스탬프 t를 기준으로, 인접한 프레임들로부터 타임스탬프 t-k의 가상 Bird's-Eye View(BEV) 특징을 생성하고, 이를 사용해 타임스탬프 t-k의 객체 집합을 예측한다. 이 접근법은 과거 타임스탬프에서 발생하는 객체의 공간적 위치와 시간적 운동을 동시에 포착하도록 감지기 학습을 유도할 경우, 더 정확한 BEV 특징 학습이 가능하다는 관찰에서 착안되었다. 먼저, 타임스탬프 t-k에 대한 가상 BEV 특징을 해당 카메라 이미지 없이 생성할 수 있는 단기 및 장기 시간 디코더를 세심하게 설계하였다. 또한, 생성된 가상 BEV 특징을 사용해 객체 타겟을 예측하기 위해 추가적인 객체 디코더를 유연하게 연결하였다. 참고로 HoP는 학습 과정에서만 수행되며, 추론 시 추가적인 부담을 유발하지 않는다. 플러그 앤 플레이 방식으로 설계되어, BEVFormer 및 BEVDet 시리즈와 같은 최신 BEV 감지 프레임워크에 쉽게 통합할 수 있다. 더불어, 보조적인 HoP 접근법은 기존의 일반적인 시간 모델링 방법과 상호보완적이며, 상당한 성능 향상을 이끌어낸다. 제안된 HoP의 효과를 검증하기 위해 nuScenes 데이터셋에서 광범위한 실험을 수행하였다. 대표적인 방법으로 BEVFormer과 BEVDet4D-Depth를 선택하여 본 방법을 평가하였다. 놀랍게도, HoP는 ViT-L 기반 모델로 nuScenes 테스트에서 NDS 68.5%, mAP 62.4%를 달성하여 리더보드상의 모든 3D 객체 감지기들을 능가하였다. 코드는 https://github.com/Sense-X/HoP 에서 공개될 예정이다.

역사적 객체 예측을 통한 다중 시점 3D 객체 탐지기의 시계열 강화 학습 | 최신 연구 논문 | HyperAI초신경