11일 전
아키텍처 독립형 마스킹 이미지 모델링 -- ViT에서 CNN으로 되돌아가기
Siyuan Li, Di Wu, Fang Wu, Zelin Zang, Stan.Z.Li

초록
마스크된 이미지 모델링(Masked Image Modeling, MIM)은 비지도 사전 학습 방법으로서 최근 시각 Transformer 모델을 활용한 다양한 하류 비전 과제에서 놀라운 성과를 보여주고 있다. 이 기법의 핵심 아이디어는 입력 이미지의 일부를 마스킹한 후, 사전 텍스트 과제를 통해 복원하는 것이다. 그러나 MIM의 작동 원리는 아직 명확히 설명되지 않았으며, 기존 연구들은 MIM이 주로 Transformer 계열 모델에 효과적이라며 CNN과는 호환되지 않는다고 주장해왔다. 본 연구에서는 MIM이 본질적으로 이미지 패치 간의 중간 차수 상호작용을 더 잘 학습하도록 모델을 교육함으로써 보다 일반화된 특징 추출 능력을 향상시킨다는 점을 관찰하였다. 이를 바탕으로, Transformer와 CNN 모두에 통합적으로 적용 가능한 아키텍처 독립형 마스크된 이미지 모델링 프레임워크인 A²MIM을 제안한다. 주요 벤치마크에서 실시한 광범위한 실험 결과를 통해 A²MIM이 특별한 설계 없이도 더 우수한 표현을 학습하며, 백본 모델이 다양한 하류 과제로의 전이 능력을 강화함을 확인하였다.