11 天前

X$^2$-VLM:面向视觉-语言任务的全功能预训练模型

Yan Zeng, Xinsong Zhang, Hang Li, Jiawei Wang, Jipeng Zhang, Wangchunshu Zhou
X$^2$-VLM:面向视觉-语言任务的全功能预训练模型
摘要

视觉-语言预训练旨在从海量数据中学习视觉与语言之间的对齐关系。现有大多数方法仅关注图像与文本之间的对齐,而部分方法则借助预训练的目标检测器,在物体层级上建模视觉与语言的对齐关系。本文提出一种统一的预训练框架,能够同时学习多粒度的视觉-语言对齐与多粒度的定位能力,从而实现多粒度视觉-语言对齐的联合建模。基于该框架,我们提出了X²-VLM,一个具有灵活模块化架构的统一模型,进一步将图像-文本预训练与视频-文本预训练统一于同一模型之中。X²-VLM能够学习与多样化文本描述相关联的无限视觉概念。实验结果表明,无论在图像-文本任务还是视频-文本任务上,X²-VLM在基础模型和大规模模型设置下均表现最优,实现了性能与模型规模之间的良好权衡。此外,我们验证了X²-VLM模块化设计带来的高可迁移性,使其可灵活应用于任意语言或领域。例如,仅通过将文本编码器替换为XLM-R,X²-VLM便在无需任何多语言预训练的情况下,超越了当前最先进的多语言多模态预训练模型。代码与预训练模型已开源,地址为:https://github.com/zengyan-97/X2-VLM。

X$^2$-VLM:面向视觉-语言任务的全功能预训练模型 | 最新论文 | HyperAI超神经