
픽셀 단위의 레이블링에 대한 극도로 높은 인력 수요는 비지도(semi-supervised) 의미 분할의 등장을 촉발시켰다. 최근 시각 트랜스포머(Vision Transformer, ViT) 기반 모델이 뛰어난 성능을 보이고 있지만, 여전히 작업 특화 학습 안내 및 국소적 의미 일관성에 대한 고려가 부족한 실정이다. 이러한 문제를 해결하기 위해, 우리는 은닉된 양성 샘플(hidden positives)을 탐색함으로써 대조 학습(contrastive learning)을 활용하여 � богrich한 의미적 관계를 학습하고 국소 영역 내 의미 일관성을 보장하고자 한다. 구체적으로, 고정된 사전 학습된 백본과 학습 중인 세그멘테이션 헤드에 기반하여, 각 앵커(anchor)에 대해 두 가지 유형의 전역 은닉 양성 샘플—일반적인 작업 무관형(task-agnostic)과 작업 특화형(task-specific)—을 탐지한다. 후자의 기여도를 점진적으로 증가시킴으로써 모델이 작업에 특화된 의미적 특징을 학습하도록 유도한다. 또한, 인접한 패치 간 의미 일관성을 학습하기 위해 그래디언트 전파 전략을 도입한다. 이는 인접한 패치들이 동일한 의미를 가질 가능성이 높다는 본질적인 전제에 기반한다. 구체적으로, 사전 정의된 유사도 점수에 비례하여, 로컬 은닉 양성 샘플 및 의미적으로 유사한 인접 패치에 손실(loss)을 전파한다. 이러한 학습 전략을 통해 제안하는 방법은 COCO-stuff, Cityscapes, Potsdam-3 데이터셋에서 새로운 최고 성능(SOTA)을 달성하였다. 코드는 다음 링크에서 공개되어 있다: https://github.com/hynnsk/HP.