17일 전

CMT-DeepLab: 클러스터링 마스크 트랜스포머를 활용한 팔레오틱 세그멘테이션

Qihang Yu, Huiyu Wang, Dahun Kim, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen
CMT-DeepLab: 클러스터링 마스크 트랜스포머를 활용한 팔레오틱 세그멘테이션
초록

우리는 클러스터링을 기반으로 설계된 트랜스포머 기반의 패노픽 세그멘테이션 프레임워크인 Clustering Mask Transformer (CMT-DeepLab)를 제안한다. 기존의 세그멘테이션 및 탐지에 활용되는 트랜스포머 아키텍처를 재검토한 이 프레임워크는 객체 쿼리를 클러스터 중심으로 간주하며, 세그멘테이션에 적용 시 픽셀들을 그룹화하는 역할을 수행한다. 클러스터링은 반복적인 절차를 통해 계산되며, 먼저 픽셀들을 특징 유사도에 따라 클러스터에 할당한 후, 클러스터 중심과 픽셀 특징을 갱신한다. 이러한 두 가지 연산을 통합한 것이 Clustering Mask Transformer (CMT) 레이어로, 이는 최종 세그멘테이션 작업과 더 밀접하고 밀도가 높은 크로스 어텐션을 생성한다. CMT-DeepLab은 기존 기법 대비 4.4%의 PQ 성능 향상을 달성하여 COCO test-dev 세트에서 새로운 최고 성능인 55.7% PQ를 기록했다.