
최근 개발된 순수 Transformer 아키텍처는 기존의 합성곱 신경망(Convolutional Neural Networks)에 비해 포인트 클라우드 학습 벤치마크에서 유망한 정확도를 달성하고 있다. 그러나 기존의 포인트 클라우드 Transformer는 비정규적인 데이터를 구조화하는 데 상당한 시간을 낭비하기 때문에 계산 비용이 매우 높은 문제가 있다. 이 단점을 해결하기 위해, 우리는 비어 있지 않은 복셀(voxels)로부터 거시적인 국소 특징을 수집하는 스파스 윈도우 어텐션(Sparse Window Attention, SWA) 모듈을 제안한다. 이 모듈은 비정규적 데이터 구조화 및 무효한 비어 있는 복셀 계산을 회피함과 동시에, 복셀 해상도에 대해 선형 계산 복잡도를 달성한다. 한편, 전역 형태에 대한 미세한 특징을 추출하기 위해, 물체의 강체 변환(rigid transformations)에 대해 더 강건한 자기 어텐션(self-attention) 변형인 상대 어텐션(relative attention, RA) 모듈을 도입한다. SWA와 RA 모듈을 결합하여 포인트 클라우드 학습을 위한 통합적인 프레임워크로 설계된 신경망 아키텍처인 PVT를 구축하였다. 기존의 Transformer 기반 및 어텐션 기반 모델들과 비교하여, 본 연구 방법은 분류 벤치마크에서 94.0%의 최고 정확도를 달성하였으며, 평균적으로 10배의 추론 속도 향상을 보였다. 또한, 다양한 실험을 통해 PVT가 부품 분할 및 의미 분할 벤치마크에서도 효과적임을 입증하였으며, 각각 86.6% 및 69.2%의 mIoU를 기록하였다.