
초록
우리는 국소적이고 전역적인 고수준 이미지 특징 간의 상호정보량을 최대화하는 방식에 기반한 비지도 의미론적 이미지 분할을 위한 새로운 방법을 제안한다. 본 연구의 핵심 아이디어는 최근 자율 지도 이미지 표현 학습 분야에서의 진전을 활용하는 것이다. 기존의 표현 학습 방법은 전체 이미지를 하나의 고수준 특징으로 표현하는 반면, 우리는 각각 특정 의미 클래스의 이미지 세그먼트를 포착하는 다수의 고수준 특징을 계산한다. 이를 위해 우리는 세그먼트화 단계와 상호정보량 최대화 단계로 구성된 새로운 이중 단계 학습 절차를 제안한다. 첫 번째 단계에서는 국소적 특징과 전역적 특징을 기반으로 이미지를 세그먼트화한다. 두 번째 단계에서는 각 국소적 특징과 해당 클래스의 고수준 특징 간의 상호정보량을 최대화한다. 학습 과정에서는 레이블이 부여되지 않은 이미지만 제공하며, 네트워크를 무작위 초기화 상태에서 시작한다. 정량적 및 정성적 평가를 위해 기존의 기준 벤치마크와 함께 본 논문에서 새로 제안하는 도전적인 새로운 벤치마크인 COCO-Persons를 사용한다. InfoSeg는 현재 최고 성능 기법들을 크게 상회하며, 특히 COCO-Stuff 데이터셋에서 픽셀 정확도 지표에서 26%의 상대적 향상을 달성하였다.