11일 전
WeakTr: 약한 감독 세그멘테이션을 위한 단순한 비전 트랜스포머 탐구
Lianghui Zhu, Yingyue Li, Jiemin Fang, Yan Liu, Hao Xin, Wenyu Liu, Xinggang Wang

초록
이 논문은 약한 감독 세그멘테이션(Weakly-supervised Semantic Segmentation, WSSS)을 위한 일반적인 비전 트랜스포머(Vision Transformer, ViT)의 특성을 탐구한다. 분류 네트워크를 이해하고 WSSS를 시작하는 데 있어 클래스 활성화 맵(Class Activation Map, CAM)은 핵심적인 역할을 한다. 우리는 ViT의 다양한 어텐션 헤드가 서로 다른 이미지 영역에 주목한다는 점을 관찰하였다. 이를 바탕으로, 어텐션 헤드의 중요도를 엔드투엔드(end-to-end)로 추정하는 새로운 가중치 기반 방법을 제안하며, 자기 어텐션 맵(self-attention maps)을 적응적으로 융합하여 보다 완전한 객체를 포함하는 고품질의 CAM 결과를 도출한다. 또한, CAM 결과를 활용하여 온라인 재학습을 수행할 수 있는 ViT 기반의 그레디언트 클리핑 디코더를 제안한다. 이 일반적인 트랜스포머 기반의 약한 감독 학습 프레임워크를 WeakTr라 명명한다. WeakTr는 표준 벤치마크에서 최신 기술 수준의 WSSS 성능을 달성하였으며, PASCAL VOC 2012의 검증 세트에서 78.4%의 mIoU, COCO 2014의 검증 세트에서 50.3%의 mIoU를 기록하였다. 코드는 https://github.com/hustvl/WeakTr 에서 공개되어 있다.