17일 전

다중모달 자동회귀 사전학습 기반 대규모 비전 인코더

Enrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby
다중모달 자동회귀 사전학습 기반 대규모 비전 인코더
초록

대규모 비전 인코더의 사전 훈련을 위한 새로운 방법을 제안한다. 최근 비전 모델의 순차적 사전 훈련 기술의 발전을 기반으로, 본 연구는 이 프레임워크를 이미지와 텍스트를 포함하는 다중모달 환경으로 확장한다. 본 논문에서는 간단한 사전 훈련 과정, 확장성, 그리고 다양한 하류 작업에서 뛰어난 성능을 특징으로 하는 일반화된 비전 인코더인 AIMV2를 제시한다. 이는 비전 인코더를 다중모달 디코더와 결합하여 원시 이미지 패치와 텍스트 토큰을 순차적으로 생성하는 방식으로 달성된다. 제안된 인코더는 다중모달 평가뿐만 아니라, 위치 추정, 기반 설정, 분류와 같은 비전 기준 평가에서도 뛰어난 성능을 발휘한다. 특히, 고정된 트렁크(Frozen Trunk)를 사용했을 때 AIMV2-3B 인코더는 ImageNet-1k에서 89.5%의 정확도를 기록했다. 더불어, 다양한 설정에서 다중모달 이미지 이해 능력 측면에서 기존 최고 수준의 대조형 모델(예: CLIP, SigLIP)을 일관되게 상회한다.

다중모달 자동회귀 사전학습 기반 대규모 비전 인코더 | 최신 연구 논문 | HyperAI초신경