6 个月前

摘要

我们推出了EVA——一种以视觉为中心的基础模型，旨在仅使用公开可获取的数据，探索大规模视觉表征的极限。EVA是一种原始的视觉Transformer（ViT）模型，通过在可见图像块的条件下，重建被掩码的图像-文本对齐视觉特征进行预训练。借助这一预训练任务，我们能够高效地将EVA扩展至十亿参数规模，并在一系列代表性视觉下游任务中创下新纪录，包括图像识别、视频动作识别、目标检测、实例分割和语义分割，且无需依赖大量监督训练数据。此外，我们观察到，随着EVA规模的扩大，其迁移学习性能呈现出与其他模型不同的质变现象。例如，在极具挑战性的大词汇量实例分割任务中，EVA实现了显著跃升：我们的模型在包含上千类别的LVISv1.0数据集上达到接近最先进水平的性能，同时在仅有80个类别的COCO数据集上也表现出相当的竞争力。除了作为纯粹的视觉编码器外，EVA还可作为以视觉为中心的多模态枢纽，有效连接图像与文本。我们发现，使用EVA初始化大型CLIP模型的视觉主干网络，能够显著提升训练稳定性，并在远少的样本量和更低的计算成本下超越从零开始训练的基线模型，为加速和扩展多模态基础模型的昂贵训练提供了全新的路径。为促进未来研究，我们已将所有代码与模型开源，地址为：https://github.com/baaivision/EVA。

源 PDF