3달 전

머그스: 다중 균질도 자기지도 학습 프레임워크

Pan Zhou, Yichen Zhou, Chenyang Si, Weihao Yu, Teck Khim Ng, Shuicheng Yan
머그스: 다중 균질도 자기지도 학습 프레임워크
초록

자기지도 학습에서 다양한 하류 작업(예: 일반 분류 및 미세 분류)은 종종 서로 다른 또는 다중 계층의 특징을 요구하므로, 다중 계층 특징의 필요성은 매우 크지만 실제로는 거의 연구되지 않았다. 본 연구에서는 처음으로 다중 계층 시각 특징을 명시적으로 학습할 수 있는 효과적인 MUlti-Granular Self-supervised learning (Mugs) 프레임워크를 제안한다. Mugs는 세 가지 보완적인 계층적 감독 메커니즘을 포함한다: 1) 인스턴스 구분 감독(Instance Discrimination Supervision, IDS), 2) 새로운 형태의 로컬 그룹 구분 감독(Local-group Discrimination Supervision, LGDS), 3) 그룹 구분 감독(Group Discrimination Supervision, GDS). IDS는 서로 다른 인스턴스를 구분함으로써 인스턴스 수준의 미세 계층 특징을 학습한다. LGDS는 이미지와 그 이웃들의 특징을 하나의 로컬 그룹 특징으로 집계하고, 동일한 이미지의 서로 다른 컷(crop)에서 생성된 로컬 그룹 특징들을 서로 가까이 모으며, 다른 이미지의 로컬 그룹 특징들과는 멀리 떨어뜨린다. 이를 통해 로컬 이웃에 대한 추가적인 정렬을 통해 IDS의 인스턴스 수준 감독을 보완하고, 서로 다른 로컬 그룹을 분리함으로써 구분 능력을 향상시킨다. 결과적으로 로컬 그룹 수준에서 고차원의 미세 계층 특징을 학습하는 데 기여한다. 마지막으로, 유사한 로컬 그룹이 무작위로 분산되거나 너무 멀리 떨어지지 않도록 하기 위해 GDS는 유사한 샘플들을 가까이 모으는 역할을 하며, 이는 (의미론적) 그룹 수준에서 거시적 계층 특징을 포착하는 데 기여한다. 이러한 방식으로 Mugs는 단일 계층 특징(예: 대조 학습에서의 인스턴스 수준 미세 특징)보다 다양한 하류 작업에서 더 높은 일반화 성능을 보이는 세 가지 계층의 특징을 동시에 학습할 수 있다. 단지 ImageNet-1K에서 사전 학습만으로 Mugs는 ImageNet-1K에서 선형 탐사(linear probing) 정확도 82.1%를 달성하여 기존 최고 성능(SoTA)을 1.1% 개선하며 새로운 최고 기록을 수립하였다. 또한 전이 학습, 탐지, 세그멘테이션 등 다른 작업에서도 기존 최고 성능을 모두 초과하였다.