미세한 배경 표현을 이용한 약간의 지도를 받은 의미 분할

이미지 레벨 라벨로부터 신뢰할 수 있는 가짜 마스크를 생성하는 것은 공간 정보의 부족으로 인해 약한 감독 하에서의 의미 분할(WSSS) 작업에서 어려움을 겪고 있습니다. 일반적으로 사용되는 클래스 활성화 맵(CAM) 기반 솔루션은 전경(FG) 객체와 의심스러운 배경(BG) 픽셀(즉, 동시 발생(co-occurring))을 구분하고 전체 객체 영역을 학습하는 데 도전을 받고 있습니다. 본 논문에서는 다양한 BG 의미를 발견하고 표현하며 동시 발생 문제를 해결하기 위한 간단한 세부 배경 표현(FBR) 방법을 제안합니다. 우리는 클래스 프로토타입이나 픽셀 레벨 특성을 배경 표현에 사용하지 않습니다. 대신, 세부적인 배경 의미 정보를 포착하고 혼동되는 배경 픽셀을 구분하기 위해 새로운 원시 요소인 음의 관심 영역(Negative Region of Interest, NROI)을 개발하였습니다. 또한, FG 내부의 효율적인 픽셀-픽셀 대조 학습을 가능하게 하여 전체 객체 영역을 활성화시키는 즉석 FG 음수 샘플링 전략도 제시합니다.본 연구에서 제안된 방법은 설계의 단순성과 사용의 편리함 덕분에 다양한 모델에 원활하게 통합될 수 있으며, 여러 벤치마크에서 다양한 WSSS 환경 하에서 최신 최고 성능 결과를 도출하였습니다. 오직 이미지 레벨(I) 라벨만을 감독으로 활용하여, 우리의 방법은 Pascal Voc 및 MS COCO 테스트 세트에서 각각 73.2 mIoU와 45.6 mIoU 분할 결과를 달성하였습니다. 더욱이, 주목도 맵(saliency maps)을 추가적인 감독 신호(I+S)로 통합함으로써 Pascal Voc 테스트 세트에서 74.9 mIoU를 얻었습니다. 동시에, 우리의 FBR 접근 방식은 다양한 영역에서 강력한 일반화 능력과 안정성을 보여주며 약한 감독 하에서의 인스턴스 분할(WSIS) 작업에서도 유의미한 성능 향상을 시사하였습니다.