2달 전
마스크 주의력 마스크 변환기 for 유니버설 이미지 세그멘테이션
Bowen Cheng; Ishan Misra; Alexander G. Schwing; Alexander Kirillov; Rohit Girdhar

초록
이미지 세그멘테이션은 다른 의미를 가진 픽셀들을 그룹화하는 것을 의미하며, 예를 들어 카테고리나 인스턴스 소속 등 각각의 의미 선택이 하나의 작업을 정의합니다. 각 작업의 의미만 다를 뿐, 현재 연구는 각 작업에 대한 전문적인 아키텍처 설계에 초점을 맞추고 있습니다. 본 논문에서는 모든 이미지 세그멘테이션 작업(판옵틱, 인스턴스 또는 의미 세그멘테이션)을 처리할 수 있는 새로운 아키텍처인 마스크 어텐션 마스크 트랜스포머(Mask2Former)를 제시합니다. 이 아키텍처의 핵심 구성 요소는 예측된 마스크 영역 내에서 크로스-어텐션을 제한하여 국소적 특성을 추출하는 마스크 어텐션이 포함되어 있습니다. 이 방법은 최소 3배 이상의 연구 노력 감소뿐만 아니라, 네 가지 유명한 데이터셋에서 가장 우수한 전문 아키텍처보다 상당히 뛰어난 성능을 보여줍니다. 특히, Mask2Former는 판옵틱 세그멘테이션(57.8 PQ on COCO), 인스턴스 세그멘테이션(50.1 AP on COCO) 및 의미 세그멘테이션(57.7 mIoU on ADE20K)에서 새로운 최고 기준을 설정하였습니다.