17 天前
ALIP:基于合成标题的自适应语言-图像预训练
Kaicheng Yang, Jiankang Deng, Xiang An, Jiawei Li, Ziyong Feng, Jia Guo, Jing Yang, Tongliang Liu

摘要
对比语言-图像预训练(Contrastive Language-Image Pre-training, CLIP)通过大规模利用从网络收集的图像-文本对数据集,在多种视觉-语言任务中显著提升了性能。然而,网络数据中固有的噪声以及图像与文本不匹配的问题,可能对表征学习的效果产生不利影响。为解决这一问题,我们首先采用OFA模型生成聚焦于图像内容的合成文本描述,这些合成描述包含有助于预训练的补充信息。在此基础上,我们提出一种自适应语言-图像预训练方法(Adaptive Language-Image Pre-training, ALIP),该方法为双路径架构,同时融合原始文本与合成描述的监督信号。ALIP的核心组件包括语言一致性门控机制(Language Consistency Gate, LCG)和描述一致性门控机制(Description Consistency Gate, DCG),二者在训练过程中动态调整样本及图像-文本/描述对的权重,以提升学习效率。同时,自适应对比损失函数能够有效缓解噪声数据的影响,进一步提升预训练数据的利用效率。我们在不同规模的模型和预训练数据集上对ALIP进行了全面验证。实验结果表明,ALIP在多个下游任务中均取得了当前最优性能,包括零样本图像-文本检索和线性探测任务。为促进后续研究,我们已将代码及预训练模型开源,发布于:https://github.com/deepglint/ALIP。