스퍼스 트랜스포머를 활용한 싱글 스타이드 3D 객체 탐지기 수용

자율주행을 위한 LiDAR 기반 3D 객체 탐지에서, 객체 크기와 입력 장면 크기의 비율은 2D 탐지 사례에 비해 훨씬 작다. 이러한 차이를 간과한 채, 많은 3D 탐지기들은 2D 탐지기들의 일반적인 실천 방식을 그대로 따르며, 포인트 클라우드를 양자화한 이후에도 특징 맵을 다운샘플링하는 방식을 사용한다. 본 논문에서는 이러한 다중 스트라이드(다중 스텝) 패턴이 LiDAR 기반 3D 객체 탐지기에 미치는 영향을 재고한다. 실험 결과에 따르면, 다운샘플링 연산은 거의 유의미한 이점을 제공하지 않으며, 불가피한 정보 손실을 초래함을 밝혔다. 이 문제를 해결하기 위해, 네트워크 전반에 걸쳐 원래 해상도를 유지하는 단일 스트라이드(Single-stride) 희소 트랜스포머(Sparse Transformer, SST)를 제안한다. 트랜스포머 기반의 구조를 통해, 단일 스트라이드 아키텍처에서의 수용 영역(Receptive Field) 부족 문제를 효과적으로 해결할 수 있다. 또한 포인트 클라우드의 희소성과 잘 조화되어 고비용 계산을 자연스럽게 피할 수 있다. 최종적으로, 본 연구의 SST는 대규모 웨이모 오픈 데이터셋(Waymo Open Dataset)에서 최신 기준(SOTA) 성능을 달성하였다. 특히, 단일 스트라이드 구조의 특성 덕분에 소형 객체(보행자) 탐지에서 놀라운 성능(검증 세트 기준 83.8 LEVEL 1 AP)을 기록한 점이 주목할 만하다. 코드는 https://github.com/TuSimple/SST 에서 공개될 예정이다.