HyperAI超神经

摘要

我们提出了一种大规模视觉编码器预训练的新方法。基于视觉模型自回归预训练的最新进展，我们将该框架拓展至多模态场景，即图像与文本的联合建模。本文介绍了AIMV2系列通用视觉编码器，其特点包括简单直观的预训练流程、良好的可扩展性，以及在多种下游任务中表现出色的性能。该方法通过将视觉编码器与一个多模态解码器相结合，实现对原始图像块和文本标记的自回归生成。我们的编码器不仅在多模态评估中表现优异，在视觉基准任务（如目标定位、视觉定位与分类）中也展现出卓越性能。值得注意的是，AIMV2-3B编码器在ImageNet-1k数据集上实现了89.5%的准确率（采用冻结主干网络），且在多种场景下，其多模态图像理解能力持续优于当前最先进的对比学习模型（如CLIP、SigLIP）。

摘要

Enrico Fini Mustafa Shukor Xiujun Li Philipp Dufter Michal Klein David Haldimann Sai Aitharaju Victor Guilherme Turrisi da Costa Louis Béthune Zhe Gan

摘要

用 AI 构建 AI

HyperAI Newsletters

Enrico Fini Mustafa Shukor Xiujun Li Philipp Dufter Michal Klein David Haldimann Sai Aitharaju Victor Guilherme Turrisi da Costa Louis Béthune Zhe Gan

摘要

用 AI 构建 AI

HyperAI Newsletters

Enrico Fini Mustafa Shukor Xiujun Li Philipp Dufter Michal Klein David Haldimann Sai Aitharaju Victor Guilherme Turrisi da Costa Louis Béthune Zhe Gan

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

大规模视觉编码器的多模态自回归预训练

Enrico Fini Mustafa Shukor Xiujun Li Philipp Dufter Michal Klein David Haldimann Sai Aitharaju Victor Guilherme Turrisi da Costa Louis Béthune Zhe Gan6 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

大规模视觉编码器的多模态自回归预训练

Enrico Fini Mustafa Shukor Xiujun Li Philipp Dufter Michal Klein David Haldimann Sai Aitharaju Victor Guilherme Turrisi da Costa Louis Béthune Zhe Gan6 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

大规模视觉编码器的多模态自回归预训练

Enrico Fini Mustafa Shukor Xiujun Li Philipp Dufter Michal Klein David Haldimann Sai Aitharaju Victor Guilherme Turrisi da Costa Louis Béthune Zhe Gan6 more

摘要

用 AI 构建 AI

HyperAI Newsletters

Enrico Fini Mustafa Shukor Xiujun Li Philipp Dufter Michal Klein David Haldimann Sai Aitharaju Victor Guilherme Turrisi da Costa Louis Béthune Zhe Gan

Enrico Fini Mustafa Shukor Xiujun Li Philipp Dufter Michal Klein David Haldimann Sai Aitharaju Victor Guilherme Turrisi da Costa Louis Béthune Zhe Gan

Enrico Fini Mustafa Shukor Xiujun Li Philipp Dufter Michal Klein David Haldimann Sai Aitharaju Victor Guilherme Turrisi da Costa Louis Béthune Zhe Gan