HyperAIHyperAI

Command Palette

Search for a command to run...

大规模视觉编码器的多模态自回归预训练

摘要

我们提出了一种大规模视觉编码器预训练的新方法。基于视觉模型自回归预训练的最新进展,我们将该框架拓展至多模态场景,即图像与文本的联合建模。本文介绍了AIMV2系列通用视觉编码器,其特点包括简单直观的预训练流程、良好的可扩展性,以及在多种下游任务中表现出色的性能。该方法通过将视觉编码器与一个多模态解码器相结合,实现对原始图像块和文本标记的自回归生成。我们的编码器不仅在多模态评估中表现优异,在视觉基准任务(如目标定位、视觉定位与分类)中也展现出卓越性能。值得注意的是,AIMV2-3B编码器在ImageNet-1k数据集上实现了89.5%的准确率(采用冻结主干网络),且在多种场景下,其多模态图像理解能力持续优于当前最先进的对比学习模型(如CLIP、SigLIP)。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供