DSVT: 회전 집합을 갖는 동적 희소 복셀 트랜스포머

3D 인식 분야에서 희소 점군(sparse point clouds)을 효율적으로 처리할 수 있는 동시에 실용적 배포가 가능한 3D 백본(Backbone) 설계는 핵심적인 과제이다. 기존의 특화된 희소 컨볼루션 대비, Transformer의 어텐션 메커니즘은 장거리 관계를 유연하게 모델링하는 데 더 적합하며, 실제 응용에 배포하기에도 용이하다. 그러나 점군의 희소성 특성으로 인해 표준 Transformer를 희소 점군에 직접 적용하는 것은 쉽지 않다. 본 논문에서는 외부 환경을 위한 3D 인식을 위한 단일 스트라이드 창(window)-기반의 희소 복셀(Voxel) Transformer 백본인 동적 희소 창 어텐션(Dynamic Sparse Voxel Transformer, DSVT)을 제안한다. 희소 점군을 병렬로 효율적으로 처리하기 위해, 각 창 내부의 지역 구역을 해당 영역의 희소도에 따라 동적으로 분할하고, 모든 지역의 특징을 완전히 병렬로 계산하는 동적 희소 창 어텐션(Dynamic Sparse Window Attention)을 제안한다. 서로 다른 집합 간의 연결을 가능하게 하기 위해, 연속된 자기 어텐션 계층에서 두 가지 분할 구성 방식을 번갈아 사용하는 회전형 집합 분할 전략을 설계하였다. 또한 효과적인 다운샘플링과 기하학적 정보의 더 나은 표현을 위해, 특화된 CUDA 연산을 사용하지 않고도 강력하고 배포 친화적인 어텐션 기반 3D 풀링 모듈을 제안하였다. 제안된 모델은 다양한 3D 인식 작업에서 최신 기준(SOTA) 성능을 달성하였으며, 특히 TensorRT를 활용한 실시간 추론 속도(27Hz)로 간편하게 배포 가능하다. 코드는 \url{https://github.com/Haiyang-W/DSVT}에서 공개될 예정이다.