특징 증류를 통한 미세조정에서 대조 학습은 마스킹 이미지 모델링과 경쟁한다

마스크된 이미지 모델링(Masked Image Modeling, MIM)은 이미지 분류, 인스턴스 대조 학습, 이미지-텍스트 정렬과 같은 이전에 널리 사용되던 사전 학습 방법들을 압도하는 뛰어난 미세조정 성능을 보이며, 최근 주목받는 사전 학습 기법으로 부상하고 있다. 본 논문에서는 이러한 기존 사전 학습 방법의 낮은 미세조정 성능을 단순한 후처리 기법인 특징 증류(Feature Distillation, FD)를 통해 크게 향상시킬 수 있음을 보여준다. 특징 증류는 기존의 표현을 MIM이 생성하는 표현과 유사한 몇 가지 바람직한 특성을 지닌 새로운 표현으로 변환한다. 이러한 특성들은 종합적으로 ‘최적화 친화성(Optimization Friendliness)’이라 명명되며, 주의(attention) 및 최적화 관련 진단 도구를 통해 식별되고 분석된다. 이러한 특성을 갖춘 새로운 표현은 강력한 미세조정 성능을 보이며, 특히 대조 기반 자기지도 학습 기법이 최첨단 MIM 알고리즘과 동등한 수준의 미세조정 성능을 달성하게 된다. 또한 CLIP 모델의 미세조정 성능도 크게 향상되어, CLIP ViT-L 모델이 ImageNet-1K 분류에서 89.0%의 top-1 정확도를 달성한다. 30억 파라미터 규모의 SwinV2-G 모델의 경우, ADE20K 세그멘테이션과 COCO 객체 탐지에서 각각 +1.5 mIoU, +1.1 mAP의 성능 향상으로 61.4 mIoU 및 64.2 mAP를 기록하며, 두 벤치마크에서 모두 새로운 최고 기록을 수립한다. 더욱 중요한 점은, 본 연구가 향후 연구가 최적화 친화성에 대한 고민 없이도 표현의 일반성과 확장성에 더 집중할 수 있는 길을 열어준다는 것이다. 왜냐하면 최적화 친화성은 비교적 쉽게 향상될 수 있기 때문이다. 코드는 https://github.com/SwinTransformer/Feature-Distillation 에 공개될 예정이다.