대규모 장소 인식을 위한 피라미드 포인트 클라우드 트랜스포머

최근 몇 년간 깊은 학습 기반의 포인트 클라우드 기술자는 장소 인식 작업에서 놀라운 성과를 거두었지만, 포인트 클라우드의 희소성으로 인해, 효율적으로 전역 기술자를 형성하기 위해 포인트 클라우드의 구분 가능한 국부적 특징을 어떻게 추출할지 여전히 도전적인 문제로 남아 있다. 본 논문에서는 효율적인 검색을 위해 포인트 클라우드로부터 구분 가능한 전역 기술자를 학습하기 위한 피라미드 포인트 트랜스포머 네트워크(PPT-Net)를 제안한다. 구체적으로, 먼저 포인트 클라우드의 다양한 국부적 k-NN 그래프 간의 공간적 관계를 적응적으로 학습하는 피라미드 포인트 트랜스포머 모듈을 개발하였으며, 이 모듈에서는 그룹화된 자체 주의( grouped self-attention)를 제안하여 포인트 클라우드의 구분 가능한 국부적 특징을 추출한다. 또한 그룹화된 자체 주의는 포인트 클라우드의 장기적 의존성을 강화할 뿐만 아니라 계산 비용도 감소시킨다. 구분 가능한 전역 기술자를 얻기 위해, 다중 해상도 특징 맵을 전역 기술자로 집계하기 위한 피라미드 VLAD 모듈을 설계하였다. 다중 해상도 특징 맵에 VLAD 풀링을 적용함으로써, 다수의 전역 기술자에 대해 컨텍스트 게이팅 메커니즘을 활용하여 다중 해상도 전역 컨텍스트 정보를 적응적으로 최종 전역 기술자에 통합한다. 옥스포드 데이터셋과 세 개의 내부 데이터셋에서 수행한 실험 결과, 본 방법이 포인트 클라우드 기반 장소 인식 작업에서 최신 기술 수준(SOTA)의 성능을 달성함을 입증하였다. 코드는 https://github.com/fpthink/PPT-Net 에서 공개되어 있다.