SA-Det3D: 자기주의 주의 기반의 컨텍스트 인지 3D 객체 탐지

기존의 포인트 클라우드 기반 3D 객체 탐지기는 고정된 가중치 커널을 사용하는 컨볼루션 유사 연산자를 통해 국소적 이웃 정보를 처리하고, 계층적으로 전역적인 맥락을 통합한다. 그러나 2D 비전 분야에서의 비국소 신경망과 자기 주의(self-attention) 기법은 장거리 상호작용을 명시적으로 모델링함으로써 더 강력하고 경쟁력 있는 모델을 가능하게 함을 보여주었다. 본 논문에서는 컨볼루션 특징에 자기 주의 특징을 추가함으로써 3D 객체 탐지에서 맥락 모델링을 위한 두 가지 자기 주의 기반 변형을 제안한다. 먼저, 현재 최고 성능을 보이는 BEV, 복셀, 포인트 기반 탐지기들에 쌍방향 자기 주의 메커니즘을 통합하여, KITTI 검증 세트에서 강력한 기준 모델 대비 최대 1.5의 3D AP 향상을 일관되게 달성하였으며, 동시에 파라미터 수는 15~80%, 계산 비용은 30~50% 감소시켰다. 다음으로, 무작위로 샘플된 위치 위에서 변형을 학습함으로써 가장 대표적인 특징의 하위 집합을 샘플링하는 자기 주의의 변형을 제안한다. 이는 명시적인 전역 맥락 모델링을 더 큰 포인트 클라우드에 확장할 수 있게 하며, 더 구분력 있고 정보량이 풍부한 특징 표현을 도출한다. 제안한 방법은 대부분의 최신 탐지기들에 유연하게 적용 가능하며, 정확도를 향상시키면서도 파라미터와 계산 효율성을 동시에 개선한다. 실험 결과, 본 방법은 KITTI, nuScenes, Waymo Open 데이터셋에서 3D 객체 탐지 성능을 개선함을 보였다. 코드는 https://github.com/AutoVision-cloud/SA-Det3D 에 공개되어 있다.