CLIP 또한 효율적인 세그멘터이다: 약한 감독 세그멘테이션을 위한 텍스트 기반 접근법

이미지 레벨 레이블을 사용한 약한 감독(semantic) 세그멘테이션(WSSS)은 도전적인 과제이다. 기존의 주류 접근 방식은 다단계 프레임워크를 따르며 높은 학습 비용을 수반한다. 본 논문에서는 이미지 레벨 레이블만을 사용하고 추가 학습 없이도 다양한 카테고리를 정확히 위치 추정할 수 있는 대조적 언어-이미지 사전학습 모델(CLIP)의 잠재력을 탐구한다. CLIP에서 고품질 세그멘테이션 마스크를 효율적으로 생성하기 위해, CLIP의 특성을 특별히 고려한 새로운 WSSS 프레임워크인 CLIP-ES를 제안한다. 본 프레임워크는 WSSS의 세 가지 단계 모두를 CLIP에 특화된 설계를 통해 개선한다. 1) GradCAM에 소프트맥스 함수를 도입하여 CLIP의 제로샷(zero-shot) 능력을 활용함으로써 비대상 클래스 및 배경에 의한 혼란을 억제한다. 동시에 CLIP의 잠재력을 극대화하기 위해 WSSS 환경에서 텍스트 입력을 재검토하고, 두 가지 텍스트 기반 전략—명확도 기반 프롬프트 선택과 동의어 융합—을 제안한다. 2) CAM 정밀화 단계를 단순화하기 위해, CLIP-ViTs 내부에 내재된 다중 헤드 자기주의(MHSA)를 기반으로 실시간 클래스 인식 주의 기반 유사도(CAA) 모듈을 제안한다. 3) CLIP가 생성한 마스크를 사용하여 최종 세그멘테이션 모델을 학습할 때, 신뢰도 기반 손실(CGL)을 도입하여 신뢰도가 높은 영역에 집중한다. 제안한 CLIP-ES는 Pascal VOC 2012 및 MS COCO 2014에서 최신 기준(SOTA) 성능을 달성하면서도, 이전 방법 대비 의사 마스크 생성에 필요한 시간을 10%로 줄였다. 코드는 https://github.com/linyq2117/CLIP-ES 에 공개되어 있다.