3달 전

마스킹된 시엠즈 네트워크를 통한 레이블 효율적 학습

Mahmoud Assran, Mathilde Caron, Ishan Misra, Piotr Bojanowski, Florian Bordes, Pascal Vincent, Armand Joulin, Michael Rabbat, Nicolas Ballas
마스킹된 시엠즈 네트워크를 통한 레이블 효율적 학습
초록

우리는 이미지 표현을 학습하기 위한 자기지도 학습 프레임워크인 마스킹된 시아모이즈 네트워크(Masked Siamese Networks, MSN)를 제안한다. 본 방법은 무작위로 마스킹된 패치를 포함한 이미지 시각화의 표현을 원본 마스킹되지 않은 이미지의 표현과 일치시키는 방식이다. 특히 비전 트랜스포머(Vision Transformers)에 적용할 경우, 네트워크가 처리하는 것은 마스킹되지 않은 패치만이므로, 이 자기지도 학습 전훈 전략은 매우 확장 가능하다. 그 결과, MSN은 공동 임베딩 아키텍처의 확장성을 향상시키면서도, 저샷 이미지 분류에서 경쟁력 있는 성능을 보이는 고수준의 의미 표현을 생성한다. 예를 들어 ImageNet-1K에서 레이블이 5,000개만 존재하는 조건에서도 기준 MSN 모델이 72.4%의 top-1 정확도를 달성하였고, ImageNet-1K 레이블의 1%만 사용했을 때는 75.7%의 top-1 정확도를 기록하여 이 벤치마크에서 자기지도 학습 분야의 새로운 최고 성능을 수립하였다. 본 연구의 코드는 공개되어 있다.