Self-positioning Point-based Transformer for Point Cloud Understanding 자기 위치 지정 기반 포인트 클라우드 이해를 위한 포인트 트랜스포머

트랜스포머는 장거리 의존성을 포착하는 능력을 통해 다양한 컴퓨터 비전 작업에서 우수한 성능을 보여주었습니다. 그러나 점군(점 클라우드)에 트랜스포머를 직접 적용하는 것은 점의 수에 대한 이차 비용 때문에 어려움이 있습니다. 본 논문에서는 로컬 및 글로벌 형태 컨텍스트를 복잡도를 줄인 상태로 포착하도록 설계된 Self-Positioning point-based Transformer (SPoTr, 자기 위치 지정 기반 점 트랜스포머)를 제시합니다. 구체적으로, 이 아키텍처는 로컬 셀프-어텐션과 자기 위치 지정 기반 글로벌 크로스-어텐션으로 구성됩니다. 자기 위치 지정 점은 입력 형태에 적응적으로 배치되며, 분리된 어텐션을 통해 공간적 정보와 의미론적 정보를 고려하여 표현력 향상을 도모합니다. 이러한 자기 위치 지정 점을 활용하여, 우리는 점군에서 글로벌 셀프-어텐션의 확장성을 개선하기 위해 새로운 글로벌 크로스-어텐션 메커니즘을 제안합니다. 이 메커니즘은 어텐션 모듈이 주의 가중치를 계산할 때 소수의 자기 위치 지정 점만 사용하도록 하여 글로벌 셀프-어텐션의 확장성을 향상시킵니다. 실험 결과, SPoTr가 형태 분류, 부분 세그멘테이션, 그리고 장면 세그멘테이션과 같은 세 가지 점군 작업에서 효과적인 것으로 나타났습니다. 특히, ScanObjectNN 데이터셋에서 우리의 제안 모델은 이전 최고 모델들보다 2.6% 높은 정확도 향상을 달성했습니다. 또한 우리는 질적 분석을 제공하여 자기 위치 지정 점의 해석 가능성을 입증하였습니다. SPoTr의 코드는 https://github.com/mlvlab/SPoTr 에서 확인할 수 있습니다.