시간이 말해줄 것이다: 시간적 다중 시점 3D 객체 탐지를 위한 새로운 전망과 기준선

최근의 카메라 중심 3D 감지 기법들은 여러 시점의 데이터를 활용하지만, 제한된 시간 역사를 사용함으로써 시간적 융합이 객체 인지 성능 향상에 미치는 영향이 크게 제한된다. 기존 연구들이 다중 프레임 이미지의 융합을 시간적 스테레오 매칭의 한 형태로 다루고 있음을 관찰한 결과, 성능 저하는 1) 매칭 해상도의 낮은 세밀도와 2) 제한된 시간 역사를 사용함으로써 생성되는 비최적의 다중 시점 설정 간의 상호작용에 기인함을 확인하였다. 이에 대한 이론적 및 실증적 분석을 통해, 서로 다른 픽셀과 깊이에 따라 최적의 시간적 차이가 크게 달라지며, 장기적인 시간 역사를 기반으로 많은 시점을 융합해야 함이 필수적임을 입증하였다. 본 연구의 분석을 바탕으로, 장기적인 이미지 관측 기록으로부터 비용 볼륨(cost volume)을 생성하는 방식을 제안하며, 해상도가 낮지만 효율적인 매칭 방식을 보완하기 위해 더 최적화된 다중 시점 매칭 설정을 도입한다. 또한, 장기적이고 거친 매칭에 사용되는 프레임별 단안 깊이 예측에 단기적이고 세밀한 매칭 정보를 추가함으로써, 장기적 및 단기적 시간적 융합이 매우 상호보완적임을 발견하였다. 높은 효율성을 유지하면서도, 본 프레임워크는 nuScenes 데이터셋에서 새로운 최고 성능을 달성하여, 테스트 세트에서 1위를 기록하였으며, 검증 세트에서는 기존 최고 성능 대비 mAP 5.2%, NDS 3.7% 향상하였다. 코드는 다음 링크에서 공개될 예정이다: $\href{https://github.com/Divadi/SOLOFusion}{여기에서}$