
본 연구는 이미지 레벨 레이블만을 사용하여 약한 감독(semi-supervised) 세분화(weakly supervised semantic segmentation, WSSS) 문제를 해결하기 위해 사전 훈련된 기반 모델, 예를 들어 대조적 언어-이미지 사전 훈련(contrastive language-image pre-training, CLIP)과 세그멘테이션 어니어모어 모델(segment anything model, SAM)을 활용하는 것을 목표로 한다. 이를 위해 우리는 CLIP과 SAM을 기반으로 한 거친부터 세밀한 단계까지의 프레임워크를 제안하여 고품질의 세그멘테이션 시드(segmentation seeds)를 생성한다. 구체적으로, 가중치가 고정된 CLIP을 사용하여 이미지 분류 작업과 시드 세그멘테이션 작업을 동시에 수행하기 위해, 두 가지 학습 가능한 작업 전용 프롬프트(learnable task-specific prompts)를 사용한다. 또한 각 작업에 대해 SAM 기반의 시드 생성(SAM-based seeding, SAMS) 모듈을 설계하여 거친 또는 세밀한 시드 맵을 생성한다. 더불어, 이미지 레벨 레이블에 의해 감독되는 다중 레이블 대조 손실(multi-label contrastive loss)과 생성된 거친 시드 맵에 의해 감독되는 CAM 활성화 손실(CAM activation loss)을 제안한다. 이러한 손실들은 프롬프트를 학습하는 데 사용되며, 본 프레임워크에서 유일하게 학습이 필요한 부분이다. 프롬프트가 학습된 후, 각 이미지와 학습된 세그멘테이션 전용 프롬프트를 CLIP 및 SAMS 모듈에 입력하여 고품질의 세그멘테이션 시드를 생성한다. 이 시드는 다른 이단계 WSSS 방법들과 마찬가지로 사전 훈련된 세그멘테이션 네트워크를 학습하는 데 사용되는 의사 레이블(pseudo labels)로 활용된다. 실험 결과, 본 방법은 PASCAL VOC 2012에서 최신 기술 수준(state-of-the-art)의 성능을 달성하였으며, MS COCO 2014에서는 경쟁력 있는 결과를 보였다. 코드는 https://github.com/HAL-42/FMA-WSSS.git 에 공개되어 있다.