GPSFormer: 포인트 클라우드 이해를 위한 전역 인식 및 국소 구조 적합 기반 트랜스포머

점 클라우드 이해를 위한 사전 학습 방법에 despite 상당한 발전이 이루어졌음에도 불구하고, 외부 데이터에 의존하지 않고 불규칙한 점 클라우드에서 복잡한 형태 정보를 직접 포착하는 것은 여전히 큰 도전과제입니다. 이 문제를 해결하기 위해, 우리는 GPSFormer라는 혁신적인 글로벌 인식 및 로컬 구조 적합 기반 트랜스포머를 제안합니다. GPSFormer는 점 클라우드에서 상세한 형태 정보를 뛰어난 정밀도로 학습할 수 있습니다. GPSFormer의 핵심은 글로벌 인식 모듈(Global Perception Module, GPM)과 로컬 구조 적합 컨볼루션(Local Structure Fitting Convolution, LSFConv)입니다. 특히, GPM은 적응형 변형 그래프 컨볼루션(Adaptive Deformable Graph Convolution, ADGConv)을 사용하여 특성 공간에서 유사한 특성 간의 단거리 종속성을 식별하고, 멀티-헤드 어텐션(Multi-Head Attention, MHA)을 통해 특성 공간 내 모든 위치 간의 장거리 종속성을 학습하여 최종적으로 문맥 표현의 유연한 학습을 가능하게 합니다. 테일러 급수(Taylor series)에서 영감을 얻어, 우리는 LSFConv를 설계하였습니다. 이는 명시적으로 부호화된 로컬 기하 구조로부터 저차 기본 정보와 고차 정교화 정보를 동시에 학습합니다. GPM과 LSFConv를 기본 구성 요소로 통합하여, 우리는 글로벌 및 로컬 구조를 효과적으로 포착하는 최첨단 트랜스포머인 GPSFormer를 구성하였습니다. 광범위한 실험을 통해 GPSFormer의 점 클라우드 세 가지 작업(형태 분류, 부분 세그멘테이션, 소수 샷 학습)에서의 효율성이 검증되었습니다. GPSFormer의 코드는 \url{https://github.com/changshuowang/GPSFormer}에서 제공됩니다.