
이 논문은 이미지 수준의 레이블만을 이용하여 의미 분할(semantic segmentation)을 학습하는 문제를 다룬다. 현재 주목받는 해결 방안들은 분류기로부터 도출된 객체 위치 지도(object localization maps)를 보조 신호로 활용하지만, 이러한 지도가 객체의 보다 포괄적인 내용을 포착하는 데 어려움을 겪는다. 기존 연구들이 주로 이미지 내부 정보에 초점을 맞추는 반면, 본 논문은 이미지 간의 의미 관계(cross-image semantic relations)가 보다 포괄적인 객체 패턴 탐색에 기여할 수 있음을 제안한다. 이를 달성하기 위해 분류기에 두 가지 신경망 공기반 주의(neural co-attentions)를 도입하여 이미지 간의 의미 유사성과 차이를 보완적으로 포착한다. 구체적으로, 훈련용 이미지 쌍을 고려할 때, 하나의 공기반 주의는 공기반 객체들에서 공통적인 의미를 인식하도록 분류기를 유도하고, 다른 하나는 대조적 공기반 주의(contrastive co-attention)라 불리며, 나머지 공통되지 않는 객체들에서 공유되지 않는 의미를 식별하도록 유도한다. 이러한 메커니즘은 분류기가 더 많은 객체 패턴을 발견하고 이미지 영역 내 의미를 더 정확히 지배하는 데 기여한다. 또한 객체 패턴 학습을 강화할 뿐만 아니라, 관련된 다른 이미지의 맥락을 활용하여 위치 지도 추론을 개선함으로써, 궁극적으로 의미 분할 학습에 긍정적인 영향을 미친다. 더욱 본질적으로, 본 알고리즘은 다양한 약한 감독 의미 분할(Weakly Supervised Semantic Segmentation, WSSS) 설정을 효과적으로 처리하는 통합 프레임워크를 제공한다. 즉, (1) 정밀한 이미지 수준 레이블만을 사용하는 경우, (2) 추가적인 단순한 단일 레이블 데이터를 사용하는 경우, (3) 추가적인 노이즈가 포함된 웹 데이터를 사용하는 경우를 모두 잘 처리한다. 본 연구는 이러한 모든 설정에서 새로운 최고 성능(state-of-the-art)을 달성하며, 그 효율성과 일반화 능력을 입증한다. 게다가, 본 연구는 CVPR2020 ‘Imperfect Data Challenge’의 약한 감독 의미 분할 트랙에서 1위를 차지하며, 실용적 성능 또한 입증하였다.