
단일 프레임 데이터는 유한한 정보를 포함하고 있어 기존의 비전 기반 다중 카메라 3D 객체 탐지 패러다임의 성능을 제한한다. 이 분야에서 성능 한계를 근본적으로 극복하기 위해, 공간적 3D 공간에서만 작동하던 확장 가능한 BEVDet 패러다임을 공간-시간 4D 공간으로 확장하는 새로운 패러다임인 BEVDet4D를 제안한다. BEVDet4D는 기존의 단순한 BEVDet 프레임워크에 최소한의 수정을 가해 이전 프레임의 특징과 현재 프레임의 해당 특징을 융합할 수 있도록 개선하였다. 이를 통해 추가적인 계산 리소스를 거의 소모하지 않으면서도, 두 후보 특징을 질의하고 비교함으로써 시간적 정보를 효과적으로 활용할 수 있게 되었다. 또한, 학습 목표에서 자차 운동(ego-motion)과 시간 요소를 제거함으로써 속도 예측 작업을 간소화하였다. 그 결과, 강력한 일반화 성능을 갖춘 BEVDet4D는 속도 오차를 최대 62.9%까지 감소시켰으며, 이는 비전 기반 방법이 이 분야에서 처음으로 LiDAR나 레이더에 의존하는 기법들과 경쟁 가능한 수준에 도달하게 되었다. 도전적 벤치마크인 nuScenes에서 고성능 구성인 BEVDet4D-Base를 사용하여 54.5%의 NDS(Noisy Detection Score)라는 새로운 기록을 달성하였으며, 이는 이전 최고 성능을 기록한 BEVDet-Base보다 +7.3% NDS 향상된 결과이다. 관련 소스 코드는 후속 연구를 위해 공개되어 있으며, GitHub에서 확인 가능하다: https://github.com/HuangJunJie2017/BEVDet.