2달 전
AltCLIP: CLIP의 언어 인코더를 변경하여 확장된 언어 기능 제공
Zhongzhi Chen; Guang Liu; Bo-Wen Zhang; Fulong Ye; Qinghong Yang; Ledell Wu

초록
이 연구에서는 개념적으로 간단하면서도 효과적인 방법을 제시하여 강력한 양방향/다국어 다중모달 표현 모델을 훈련합니다. OpenAI에서 출시한 사전 훈련된 다중모달 표현 모델 CLIP을 기반으로, 우리는 이의 텍스트 인코더를 사전 훈련된 다국어 텍스트 인코더 XLM-R로 변경하고, 두 단계 훈련 스키마(teacher learning과 contrastive learning)를 통해 언어와 이미지 표현을 일치시키는 방법을 개발하였습니다. 다양한 작업에 대한 평가를 통해 우리의 방법론을 검증하였습니다. ImageNet-CN, Flicker30k-CN, COCO-CN 및 XTD 등 여러 작업에서 새로운 최고 성능을 달성하였으며, 또한 거의 모든 작업에서 CLIP과 매우 유사한 성능을 얻었습니다. 이는 CLIP의 텍스트 인코더를 단순히 변경하여 다국어 이해 등의 확장 기능을 추가할 수 있음을 시사합니다. 우리의 모델과 코드는 https://github.com/FlagAI-Open/FlagAI에서 확인할 수 있습니다.