3차원 포인트 클라우드 세그멘테이션을 위한 스트라티파이드 트랜스포머

최근 몇 년 동안 3D 포인트 클라우드 세그멘테이션 분야는 빠른 발전을 이뤘다. 현재 대부분의 방법들은 국소적 특징을 집약하는 데 초점을 맞추고 있으나, 장거리 의존성을 직접 모델링하지 못하는 한계를 가지고 있다. 본 논문에서는 장거리 맥락을 효과적으로 포착할 수 있으며, 뛰어난 일반화 능력과 높은 성능을 보이는 새로운 모델인 Stratified Transformer를 제안한다. 구체적으로, 우리는 새로운 키 샘플링 전략을 제안한다. 각 쿼리 포인트에 대해, 근접한 포인트는 밀집하게, 멀리 있는 포인트는 희소하게 단계적으로(계층적으로) 키로 샘플링함으로써 모델이 효과적인 수용 영역을 확대하고, 낮은 계산 비용으로도 장거리 맥락 정보를 활용할 수 있도록 한다. 또한, 불규칙한 포인트 배열로 인한 도전 과제를 해결하기 위해, 첫 번째 레이어에서 포인트 임베딩 기법을 도입하여 국소 정보를 효과적으로 집약한다. 이는 수렴을 촉진하고 성능을 향상시킨다. 더불어, 상황에 따라 적응적으로 위치 정보를 포착할 수 있도록 상황 기반 상대적 위치 인코딩을 도입한다. 마지막으로, 각 윈도우 내 포인트 수가 일정하지 않은 문제를 해결하기 위해 메모리 효율적인 구현 방식을 제안한다. 광범위한 실험을 통해 제안된 방법이 S3DIS, ScanNetv2, ShapeNetPart 데이터셋에서 효과적이고 우수한 성능을 발휘함을 입증하였다. 코드는 https://github.com/dvlab-research/Stratified-Transformer 에서 공개되어 있다.