17 天前
大规模视觉编码器的多模态自回归预训练
Enrico Fini, Mustafa Shukor, Xiujun Li, Philipp Dufter, Michal Klein, David Haldimann, Sai Aitharaju, Victor Guilherme Turrisi da Costa, Louis Béthune, Zhe Gan, Alexander T Toshev, Marcin Eichner, Moin Nabi, Yinfei Yang, Joshua M. Susskind, Alaaeldin El-Nouby

摘要
我们提出了一种大规模视觉编码器预训练的新方法。基于视觉模型自回归预训练的最新进展,我们将该框架拓展至多模态场景,即图像与文本的联合建模。本文介绍了AIMV2系列通用视觉编码器,其特点包括简单直观的预训练流程、良好的可扩展性,以及在多种下游任务中表现出色的性能。该方法通过将视觉编码器与一个多模态解码器相结合,实现对原始图像块和文本标记的自回归生成。我们的编码器不仅在多模态评估中表现优异,在视觉基准任务(如目标定位、视觉定位与分类)中也展现出卓越性能。值得注意的是,AIMV2-3B编码器在ImageNet-1k数据集上实现了89.5%的准确率(采用冻结主干网络),且在多种场景下,其多模态图像理解能力持续优于当前最先进的对比学习模型(如CLIP、SigLIP)。