
초록
이 논문에서는 정확한 다중 센서 3차원 객체 탐지를 위해 다수의 관련 작업을 활용하는 방법을 제안한다. 이를 위해 2차원 및 3차원 객체 탐지, 지면 추정, 깊이 보완 등 다양한 작업을 종합적으로 고려하는 엔드 투 엔드 학습 가능한 아키텍처를 제시한다. 실험 결과, 이러한 모든 작업들이 서로 보완적이며, 다양한 수준에서 정보를 융합함으로써 네트워크가 더 나은 표현을 학습하도록 도움을 준다는 것이 확인되었다. 특히, 본 연구의 접근법은 실시간 성능을 유지하면서 KITTI 벤치마크에서 2차원, 3차원 및 BEV(Bird's Eye View) 객체 탐지에서 최상의 성능을 기록한다.