
이미지 수준의 약한 감독(semi-supervised) 세분화(WSSS)는 클래스 활성화 맵(CAMs)을 기반으로 큰 진전을 이루었으나, 분류와 세분화 사이의 큰 감독 갭(supervision gap)은 모델이 더 완전하고 정밀한 의사 마스크(pseudo masks)를 생성하는 데 여전히 걸림돌이 되고 있다. 본 연구에서는 픽셀 수준의 감독 신호를 제공함으로써 이 갭을 좁힐 수 있는 약한 감독 기반 픽셀-프로토타입 대비(weakly-supervised pixel-to-prototype contrast)를 제안한다. 두 가지 직관적인 사전 지식(prior)에 따라, 본 방법은 이미지의 다양한 시점(view) 간 및 각각의 단일 시점 내에서 실행되며, 이를 통해 다중 시점 간의 특징 의미 일관성 정규화를 유도하고, 특징 공간 내(내부) 및 클래스 간(외부)의 특징 밀도(compactness)와 분산(dispersion)을 촉진한다. 제안한 방법은 기존 WSSS 모델에 원활하게 통합될 수 있으며, 기반 네트워크의 구조를 변경할 필요 없이 추가적인 추론 부담 없이 적용 가능하다. 광범위한 실험을 통해 본 방법이 두 가지 강력한 베이스라인 모델에 대해 일관되게 큰 성능 향상을 가져옴을 확인하였으며, 그 효과를 입증하였다. 특히, SEAM 기반으로 구현한 경우, PASCAL VOC 2012 데이터셋에서 초기 시드(mIoU)를 55.4%에서 61.5%로 향상시켰다. 또한, EPS 모델에 본 방법을 적용함으로써 세분화 mIoU를 70.8%에서 73.6%로 끌어올려 새로운 최고 성능(SOTA)을 달성하였다.