19일 전

PVT: 포인트-복셀 트랜스포머를 이용한 포인트 클라우드 학습

Cheng Zhang, Haocheng Wan, Xinyi Shen, Zizhao Wu
PVT: 포인트-복셀 트랜스포머를 이용한 포인트 클라우드 학습
초록

최근 개발된 순수 Transformer 아키텍처는 기존의 합성곱 신경망(Convolutional Neural Networks)에 비해 포인트 클라우드 학습 벤치마크에서 유망한 정확도를 달성하고 있다. 그러나 기존의 포인트 클라우드 Transformer는 비정규적인 데이터를 구조화하는 데 상당한 시간을 낭비하기 때문에 계산 비용이 매우 높은 문제가 있다. 이 단점을 해결하기 위해, 우리는 비어 있지 않은 복셀(voxels)로부터 거시적인 국소 특징을 수집하는 스파스 윈도우 어텐션(Sparse Window Attention, SWA) 모듈을 제안한다. 이 모듈은 비정규적 데이터 구조화 및 무효한 비어 있는 복셀 계산을 회피함과 동시에, 복셀 해상도에 대해 선형 계산 복잡도를 달성한다. 한편, 전역 형태에 대한 미세한 특징을 추출하기 위해, 물체의 강체 변환(rigid transformations)에 대해 더 강건한 자기 어텐션(self-attention) 변형인 상대 어텐션(relative attention, RA) 모듈을 도입한다. SWA와 RA 모듈을 결합하여 포인트 클라우드 학습을 위한 통합적인 프레임워크로 설계된 신경망 아키텍처인 PVT를 구축하였다. 기존의 Transformer 기반 및 어텐션 기반 모델들과 비교하여, 본 연구 방법은 분류 벤치마크에서 94.0%의 최고 정확도를 달성하였으며, 평균적으로 10배의 추론 속도 향상을 보였다. 또한, 다양한 실험을 통해 PVT가 부품 분할 및 의미 분할 벤치마크에서도 효과적임을 입증하였으며, 각각 86.6% 및 69.2%의 mIoU를 기록하였다.