11일 전

3D 인스턴스 세그멘테이션을 위한 마스크-어텐션 프리 트랜스포머

Xin Lai, Yuhui Yuan, Ruihang Chu, Yukang Chen, Han Hu, Jiaya Jia
3D 인스턴스 세그멘테이션을 위한 마스크-어텐션 프리 트랜스포머
초록

최근 들어 트랜스포머 기반 방법이 3D 인스턴스 세그멘테이션을 주도하고 있으며, 이 과정에서 마스크 어텐션(mask attention)이 일반적으로 활용된다. 구체적으로, 객체 쿼리는 첫 번째 크로스 어텐션에서 초기 인스턴스 마스크를 기반으로 유도되며, 이후 유사한 방식으로 반복적으로 개선된다. 그러나 우리는 초기 인스턴스 마스크의 낮은 재현율(recall)로 인해 마스크 어텐션 파이프라인이 일반적으로 느린 수렴 속도를 초래한다는 점을 관찰하였다. 따라서 우리는 마스크 어텐션 설계를 포기하고 대신 보조 중심 회귀(auxiliary center regression) 작업을 도입한다. 중심 회귀를 통해 낮은 재현율 문제를 효과적으로 해결하고, 위치 사전 지식(positional prior)을 도입하여 크로스 어텐션을 수행한다. 이를 달성하기 위해 일련의 위치 인지(position-aware) 설계를 개발하였다. 먼저, 초기 위치 쿼리로 3D 위치의 공간 분포를 학습한다. 이는 3D 공간 전체에 고밀도로 분포하므로, 장면 내 객체를 높은 재현율로 쉽게 포착할 수 있다. 또한, 크로스 어텐션을 위한 상대적 위치 인코딩(relative position encoding)과 더 정확한 위치 쿼리를 위한 반복적 개선(iterative refinement) 기법을 제안한다. 실험 결과, 제안한 방법은 기존 기법보다 수렴 속도가 4배 빠르며, ScanNetv2 3D 인스턴스 세그멘테이션 벤치마크에서 새로운 최고 성능(state-of-the-art)을 달성하였고, 다양한 데이터셋에서 우수한 성능을 보였다. 코드 및 모델은 https://github.com/dvlab-research/Mask-Attention-Free-Transformer 에서 공개되어 있다.

3D 인스턴스 세그멘테이션을 위한 마스크-어텐션 프리 트랜스포머 | 최신 연구 논문 | HyperAI초신경