ConDaFormer: 3D 포인트 클라우드 이해를 위한 국소 구조 강화를 갖춘 분해형 트랜스포머

최근 들어 변환기(Transformer)는 3차원 점군(point cloud) 이해에 적용되며 놀라운 성과를 거두고 있다. 그러나 점군 데이터는 10만 개 이상의 점을 포함하고 있어, 전역(self-attention)에 기반한 변환기 구조는 실현 불가능하다. 따라서 대부분의 기법들은 변환기를 국소 영역, 예를 들어 구형 또는 입체 창(window) 내에서 적용하는 방식을 제안한다. 그러나 이러한 접근 방식은 여전히 많은 수의 Query-Key 쌍을 포함하고 있어 높은 계산 비용을 수반한다. 또한 기존의 방법들은 일반적으로 선형 투영을 통해 Query, Key, Value를 학습하지만, 국소적인 3차원 기하 구조를 모델링하지 않는다. 본 논문에서는 이러한 문제를 해결하기 위해 새로운 변환기 블록인 ConDaFormer를 제안한다. 기술적으로 ConDaFormer는 입체 창을 서로 수직인 세 개의 2차원 평면으로 분해함으로써, 유사한 범위 내에서 주의(attention)를 모델링할 때 더 적은 수의 점을 처리할 수 있게 한다. 이 분해 작업은 계산 복잡도를 증가시키지 않으면서 주의 범위를 확장하는 데 유리하지만, 일부 문맥 정보를 상실할 수 있다. 이를 보완하기 위해, 주의 연산 전후에 깊이 지향형 합성곱(depth-wise convolution)을 도입하는 국소 구조 강화 전략을 개발하였다. 이 방법은 국소 기하 정보를 효과적으로 포착할 수 있다. 이러한 설계를 바탕으로 ConDaFormer는 장거리 문맥 정보와 국소 사전 지식을 동시에 학습할 수 있다. 제안된 방법의 유효성은 여러 3차원 점군 이해 벤치마크에서의 실험 결과를 통해 입증되었다. 코드는 https://github.com/LHDuan/ConDaFormer 에서 공개되어 있다.