Max Pooling with Vision Transformers가 약간 지도된 의미 분할에서 클래스와 형태를 조화시킵니다.

약한 감독 하의 의미 분할(Weakly Supervised Semantic Segmentation, WSSS) 연구는 이미지 클래스 라벨만을 감독으로 사용하여 일반적인 파이프라인인 CNN(C Convolutional Neural Network) 더하기 클래스 활성화 맵(Class Activation Map, CAM) 더하기 정제 과정을 개선하는 여러 방향을 탐구해 왔습니다. 비록 완전히 감독된 방법들과의 차이는 줄어들었지만, 이 프레임워크 내에서 그 격차를 더욱 좁히기는 어려울 것으로 보입니다. 한편, Vision Transformers(ViT) 기반의 WSSS 방법들은 아직 CAM에 대한 유효한 대안을 탐색하지 않았습니다. ViT 특징은 자기감독 학습에서 장면 레이아웃과 객체 경계를 유지하는 것으로 알려져 있습니다. 이러한 결과를 확인하기 위해, 우리는 Global Max Pooling(GMP)이 패치 특징을 활용하여 픽셀-레이블 확률과 클래스 확률 간의 협상을 가능하게 함으로써 변환기(transformer)의 자기감독 방법에서의 이점을 더욱 강화한다는 것을 증명합니다. 본 연구에서는 CAM에 기반하지 않은 새로운 WSSS 방법인 ViT-PCM(ViT Patch-Class Mapping)을 제안합니다. 제시된 엔드투엔드(end-to-end) 네트워크는 단일 최적화 과정으로 세분화 마스크(segmentation mask)의 정교한 형태와 적절한 위치 결정(localization)을 학습합니다. 우리의 모델은 기준 가짜 마스크(Baseline Pseudo-Masks, BPM)에서 최고 수준의 성능을 보여주며, PascalVOC 2012 검증(val) 세트에서 $69.3\%$ mIoU(mean Intersection over Union)를 달성하였습니다. 또한, 다른 모든 접근법보다 높은 정확도를 얻으면서도 가장 적은 매개변수 집합(set of parameters)을 가지고 있음을 보여줍니다. 한마디로, 우리 방법의 정량적 및 정성적 결과는 ViT-PCM이 CNN-CAM 기반 구조들의 훌륭한 대안임을 입증합니다.