3D 객체 탐지를 위한 복셀 트랜스포머

우리는 포인트 클라우드에서 3차원 객체 탐지에 사용할 수 있는 새로운 효과적인 복셀 기반 Transformer 백본인 Voxel Transformer(VoTr)을 제안한다. 기존의 복셀 기반 3차원 객체 탐지기에서 사용되는 3차원 컨볼루션 백본은 수용 영역(receptive field)의 제한으로 인해 넓은 맥락 정보를 효율적으로 포착할 수 없으며, 이는 객체 인식과 위치 추정에 있어 핵심적인 요소이다. 본 논문에서는 자기 주의(self-attention)를 통해 복셀 간의 장거리 관계를 가능하게 하는 Transformer 기반 아키텍처를 도입함으로써 이 문제를 해결한다. 비어 있지 않은 복셀은 자연스럽게 희소하지만 수많은 특징을 지닌다는 점을 고려할 때, 복셀에 표준 Transformer를 직접 적용하는 것은 쉽지 않다. 이를 해결하기 위해, 빈 복셀과 비어 있지 않은 복셀 위치 모두에서 효과적으로 작동할 수 있는 희소 복셀 모듈(sparse voxel module)과 부분 다양체 복셀 모듈(submanifold voxel module)을 제안한다. 또한, 컨볼루션 기반 대안과 비교하여 유사한 계산 부하를 유지하면서 주의 범위를 더욱 확대하기 위해 두 모듈에서 다중 헤드 주의(multi-head attention)를 위한 두 가지 주의 메커니즘인 로컬 주의(Local Attention)와 확장 주의(Dilated Attention)를 제안하며, 다중 헤드 주의 내 질의 과정을 가속화하기 위해 빠른 복셀 쿼리(Fast Voxel Query)를 추가로 제안한다. VoTr는 여러 개의 희소 복셀 모듈과 부분 다양체 복셀 모듈로 구성되어 있으며, 대부분의 복셀 기반 탐지기에 적용 가능하다. 제안된 VoTr는 KITTI 데이터셋과 Waymo Open 데이터셋에서 컨볼루션 기반 기준 모델 대비 일관된 성능 향상을 보이며 동시에 계산 효율성을 유지함을 입증하였다.