17일 전
SeMask: 의미적 마스킹을 활용한 트랜스포머 기반 의미 분할
Jitesh Jain, Anukriti Singh, Nikita Orlov, Zilong Huang, Jiachen Li, Steven Walton, Humphrey Shi

초록
이미지 트랜스포머 네트워크의 인코더 부분에서 사전 훈련된 백본을 미세 조정하는 것은 의미 분할 작업에 대한 전통적인 접근 방식이었다. 그러나 이러한 접근 방식은 인코딩 단계에서 이미지가 제공하는 의미적 맥락을 무시하게 된다. 본 논문은 사전 훈련된 계층적 트랜스포머 기반 백본에 의미 정보를 미세 조정 과정 중에 통합함으로써 성능을 상당히 향상시킬 수 있음을 주장한다. 이를 달성하기 위해, 의미적 어텐션 연산을 활용하여 의미 정보를 인코더에 효과적으로 통합하는 간단하면서도 효과적인 프레임워크인 SeMask를 제안한다. 또한, 각 단계에서 중간 의미 사전 지식 맵에 대한 감독을 제공하기 위해 경량화된 의미 디코더를 훈련 중에 사용한다. 실험 결과, 의미 사전 지식을 통합함으로써 계층적 인코더의 성능이 향상되며, FLOPs 수는 소폭 증가할 뿐이다. 우리는 Swin 트랜스포머 및 Mix 트랜스포머 백본을 인코더로 사용하고 다양한 디코더와 결합하여 SeMask를 통합함으로써 실증적 증거를 제시한다. 제안하는 프레임워크는 ADE20K 데이터셋에서 58.25%의 mIoU로 새로운 최고 성능을 달성하였으며, Cityscapes 데이터셋에서는 mIoU 지표에서 3% 이상의 향상을 기록하였다. 코드와 체크포인트는 공개적으로 제공되며, https://github.com/Picsart-AI-Research/SeMask-Segmentation 에서 확인할 수 있다.