보크셀 R-CNN: 고성능 보크셀 기반 3차원 객체 탐지로의 도전

최근 3차원 객체 탐지 기술의 발전은 3차원 데이터 표현 방식, 즉 복셀 기반 또는 포인트 기반 표현 방식에 크게 의존하고 있다. 기존의 고성능 3차원 탐지기 대부분은 포인트 기반 구조를 채택하고 있는데, 이는 포인트의 정밀한 위치 정보를 보다 잘 유지할 수 있기 때문이다. 그러나 포인트 수준의 특징은 순서 없이 저장되는 특성상 높은 계산 부담을 초래한다. 반면 복셀 기반 구조는 특징 추출에 더 적합하지만, 입력 데이터를 격자로 분할함으로써 정확도가 낮아지는 경향이 있다. 본 논문에서는 다소 다른 관점을 제시한다. 즉, 고성능 3차원 객체 탐지에 있어 원시 포인트의 정밀한 위치 정보는 필수적이지 않으며, 거친 복셀 해상도에서도 충분한 탐지 정확도를 달성할 수 있음을 발견하였다. 이러한 관점을 바탕으로, 간단하면서도 효과적인 복셀 기반 프레임워크인 Voxel R-CNN을 제안한다. 이 방법은 2단계 접근 방식을 통해 복셀 특징을 극대화함으로써, 최신 포인트 기반 모델과 비슷한 탐지 정확도를 달성하면서도 계산 비용은 극도로 줄였다. Voxel R-CNN은 3차원 백본 네트워크, 2차원 Bird's Eye View(BEV) 영역 제안 네트워크, 그리고 탐지 헤드로 구성된다. 또한 복셀 특징에서 직접 RoI 특징을 추출하기 위해 복셀 RoI 풀링 기법을 제안하였다. 제안된 방법은 널리 사용되는 KITTI 데이터셋과 최신의 Waymo Open 데이터셋에서 광범위한 실험을 통해 검증되었다. 실험 결과, 기존 복셀 기반 방법들과 비교해 Voxel R-CNN은 더 높은 탐지 정확도를 보이며, 동시에 실시간 프레임 처리 속도를 유지함을 확인하였다. 구체적으로 NVIDIA RTX 2080 Ti GPU에서 25 FPS의 속도를 달성하였다. 코드는 다음 URL에서 공개되어 있다: \url{https://github.com/djiajunustc/Voxel-R-CNN}.