자기지도형 시각적 표현 학습: 의미 그룹화를 통한 접근

이 논문에서는 레이블이 없는 장면 중심 데이터로부터 시각적 표현을 학습하는 문제에 도전한다. 기존 연구들은 장면 중심 데이터 내부에 존재하는 복잡한 구조를 활용할 수 있음을 보여주었으나, 일반적으로 핸드크래프트된 객체성 사전 지식이나 특수한 사전 과제(pretext task)에 의존하여 학습 프레임워크를 구축하는 경향이 있다. 이러한 접근은 일반화 능력에 부정적인 영향을 줄 수 있다. 본 연구에서는 데이터 기반의 의미적 슬롯(semantic slot)에서 대조 학습(contrastive learning)을 제안한다. 이를 통해 의미적 그룹화와 표현 학습을 동시에 수행할 수 있는 SlotCon을 제안한다. 의미적 그룹화는 픽셀을 학습 가능한 원형 프로토타입 집합에 할당함으로써 수행되며, 특징에 대해 주의 기반 풀링(attention-based pooling)을 통해 각 샘플에 적응하는 새로운 슬롯을 형성할 수 있다. 학습된 데이터 의존적 슬롯을 기반으로 대조 목표함수를 사용하여 표현 학습을 수행함으로써, 특징의 구분 능력을 강화하고, 동시에 의미적으로 일관된 픽셀들을 효과적으로 그룹화할 수 있다. 기존의 방법들과 달리, 의미적 그룹화와 대조 학습이라는 두 가지 상호연결된 목적함수를 동시에 최적화함으로써, 수작업으로 설계된 사전 지식의 단점을 회피하고 장면 중심 이미지로부터 객체 또는 그룹 수준의 표현을 학습할 수 있다. 실험 결과, 본 방법은 복잡한 장면을 의미적 그룹으로 효과적으로 분해하여 표현 학습에 기여하며, 객체 탐지, 인스턴스 세그멘테이션, 의미 세그멘테이션 등 다양한 하류 작업에 큰 이점을 제공함을 확인하였다. 코드는 다음 주소에서 공개되어 있다: https://github.com/CVMI-Lab/SlotCon.