2달 전
COSMOS: 시각 언어 사전 학습을 위한 교차 모달리티 자기 증류
Sanghwan Kim; Rui Xiao; Mariana-Iuliana Georgescu; Stephan Alaniz; Zeynep Akata

초록
대조 손실을 사용하여 훈련된 비전-언어 모델(Vision-Language Models, VLMs)은 다양한 비전 및 언어 작업에서 상당한 발전을 이룩하였습니다. 그러나 대조 손실의 전역적인 특성으로 인해 VLMs는 주로 배경 객체에 초점을 맞추고 이미지 내 다른 중요한 정보를 간과하는 경향이 있어, 이는 후속 작업의 효율성을 제한합니다. 이러한 문제를 해결하기 위해, 우리는 COSMOS: 크로스-모달 셀프 디스틸레이션(CrOSs-MOdality Self-distillation)을 제안합니다. 이는 비전-언어 사전 훈련에 새로운 텍스트 자르기 전략과 크로스 어텐션 모듈을 통합한 자기 지도 학습 프레임워크입니다. 우리는 이미지와 텍스트의 전역적 및 국소적 뷰(즉, 다중 모달 증강)를 생성하는데, 이는 VLMs에서의 셀프 디스틸레이션에 필수적입니다. 또한, 크로스-모달 셀프 디스틸레이션 손실을 통해 최적화된 포괄적인 크로스-모달 표현을 학습할 수 있는 크로스 어텐션 모듈을 도입하였습니다. COSMOS는 다양한 제로샷 후속 작업(검색, 분류, 의미 분할 등)에서 기존 강력한 베이스라인들을 일관되게 능가하며, 더 큰 데이터셋으로 훈련된 CLIP 기반 모델들보다 시각 인식 및 맥락 이해 작업에서 우수한 성능을 보입니다. 코드는 https://github.com/ExplainableML/cosmos 에서 제공됩니다.