11 天前

文兰:通过大规模多模态预训练连接视觉与语言

Yuqi Huo, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing Yang, Jingyuan Wen, Heng Zhang, Baogui Xu, Weihao Zheng, Zongzheng Xi, Yueqian Yang, Anwen Hu, Jinming Zhao, Ruichen Li, Yida Zhao, Liang Zhang, Yuqing Song, Xin Hong, Wanqing Cui, Danyang Hou, Yingyan Li, Junyi Li, Peiyu Liu, Zheng Gong, Chuhao Jin, Yuchong Sun, Shizhe Chen, Zhiwu Lu, Zhicheng Dou, Qin Jin, Yanyan Lan, Wayne Xin Zhao, Ruihua Song, Ji-Rong Wen
文兰:通过大规模多模态预训练连接视觉与语言
摘要

近年来,多模态预训练模型被广泛研究,旨在实现视觉与语言之间的有效对齐。然而,大多数现有方法均显式建模图像与文本对之间的跨模态交互,其前提假设是文本与图像模态之间存在强语义关联。然而,在现实场景中,这一强假设往往不成立。为此,我们选择在大规模多模态预训练中隐式建模跨模态相关性,这正是由我们团队主导的中文项目“文澜”(WenLan)的核心研究方向。具体而言,在图像与文本对之间仅假设弱相关性的前提下,我们在跨模态对比学习框架下提出了一种双塔预训练模型——BriVL。与OpenAI的CLIP采用简单对比学习方法不同,我们通过将最新的MoCo(Momentum Contrast)方法引入跨模态场景,设计了一种更为先进的算法。通过构建基于大容量队列的字典结构,BriVL能够在有限的GPU资源下纳入更多负样本,显著提升对比学习的效率与性能。此外,我们进一步构建了一个大规模中文多源图像-文本数据集——RUC-CAS-WenLan,用于BriVL模型的预训练。大量实验证明,预训练后的BriVL模型在多个下游任务上均优于UNITER和OpenAI CLIP,展现出卓越的跨模态理解能力。

文兰:通过大规模多模态预训练连接视觉与语言 | 最新论文 | HyperAI超神经