비정상적인 가상 레이블을 사용한 반감독형 의미 세그멘테이션

반감독(semi-supervised) 의미 분할의 핵심은 레이블이 없는 이미지의 픽셀들에 적절한 의사 레이블(pseudo-label)을 부여하는 것이다. 일반적으로는 예측 신뢰도가 높은 결과를 의사 진짜 레이블(pseudo ground-truth)로 선택하는 방법이 사용되지만, 이는 예측이 신뢰할 수 없는 픽셀들이 대부분 무시되면서 활용되지 못하는 문제를 야기한다. 우리는 모든 픽셀이 모델 학습에 중요한 역할을 한다고 주장한다. 즉, 예측이 모호하더라도 그 픽셀은 여전히 의미를 갖는다. 직관적으로, 신뢰할 수 없는 예측은 확률이 가장 높은 상위 클래스들 사이에서 혼란스러울 수 있지만, 나머지 클래스들에 속하지 않는다는 점에서는 상대적으로 확신할 수 있다. 따라서 이러한 픽셀은 가장 불가능한 카테고리들에 대해 명확한 음성 샘플(negative sample)로 간주할 수 있다. 이러한 통찰을 바탕으로, 레이블이 없는 데이터를 효과적으로 활용할 수 있는 새로운 파이프라인을 제안한다. 구체적으로, 예측의 엔트로피(entropy)를 기반으로 신뢰할 수 있는 픽셀과 신뢰할 수 없는 픽셀을 분리하고, 각 신뢰할 수 없는 픽셀을 카테고리별 음성 샘플 큐에 배치한다. 이를 통해 후보 픽셀 전체를 활용하여 모델을 학습시킬 수 있다. 또한 학습 과정에서 예측의 정확도가 점점 향상됨에 따라, 신뢰성-비신뢰성 구분을 위한 임계값을 적응적으로 조정한다. 다양한 벤치마크와 학습 설정에서의 실험 결과는 제안하는 방법이 최신 기술 대비 우수함을 입증한다.