트랜스포머를 활용한 약한 감독(semantic) 세그멘테이션(WSSS) 기법은 전역적인 맥락을 효과적으로 포착할 수 있는 강력한 능력을 활용하여 활발히 연구되고 있다. 그러나 트랜스포머의 자기주의(self-attention) 메커니즘에서 활성화 함수는 단지 일부 토큰만을 강조하기 때문에, 이러한 기법들은 여전히 희소한 주의 맵(sparse attention map) 문제에 시달리며, 이로 인해 불완전한 의사 레이블(pseudo labels)이 생성된다. 본 논문에서는 전체 객체 영역을 균일하게 강조할 수 있는 새로운 클래스 활성화 방식을 제안한다. 제안된 방법의 핵심 아이디어는 객체의 유사한 이미지 특징들을 결합하여 형성된 클러스터(cluster)의 지침을 따르며 객체 영역을 활성화하는 것이다. 구체적으로, 제안하는 기반 클러스터링 주의 모듈에서 생성된 클러스터 기반 클래스 활성화 맵(ClusterCAM)은 고응답 영역을 통해 인코딩된 특징 공간 내에서 타겟 객체를 활성화하는 데 사용된다. 이를 통해 동일한 객체에서 추출된 패치 토큰들 간의 의미적 근접성을 활용하여 모델이 타겟 객체의 전체 영역을 탐색할 수 있게 된다. 이러한 기반 위에서, 분류 및 세그멘테이션 네트워크를 단일 단계(single-stage) 방식으로 동시에 학습할 수 있는 엔드투엔드(end-to-end) WSSS 프레임워크를 설계하였다. 기준 데이터셋에서의 실험 결과, 제안한 방법은 기존의 여러 단계적(multi-stage) 접근 방식을 포함한 이전 WSSS 기법들보다 뚜렷한 성능 향상을 보였다. 코드와 모델은 공개되어 있으며, 다음 링크에서 확인할 수 있다: https://github.com/DCVL-WSSS/ClusterCAM.