17 天前
COTS:面向跨模态检索的协作式双流视觉-语言预训练模型
Haoyu Lu, Nanyi Fei, Yuqi Huo, Yizhao Gao, Zhiwu Lu, Ji-Rong Wen

摘要
大规模单流预训练在图像-文本检索任务中已展现出显著的性能优势。然而,由于其依赖复杂的注意力机制层,推理效率较低。近年来,诸如CLIP和ALIGN等双流方法凭借较高的推理效率也取得了令人瞩目的成果,但这些方法仅实现了两模态间的实例级对齐,仍有提升空间。为克服上述局限,本文提出一种新型的协同双流视觉-语言预训练模型——COTS(COllaborative Two-Stream),通过增强跨模态交互来提升图像-文本检索性能。在基于动量对比学习实现实例级对齐的基础上,COTS进一步引入两种额外层级的跨模态交互机制:(1)词元级交互——设计了一种无需跨流网络模块的掩码视觉-语言建模(Masked Vision-Language Modeling, MVLM)学习目标,其中对视觉编码器引入变分自编码器(Variational Autoencoder, VAE),以生成每张图像对应的视觉词元;(2)任务级交互——在文本到图像与图像到文本检索任务之间设计了KL对齐学习目标,利用动量对比学习中的负样本队列计算各任务的概率分布,从而实现任务间的协同优化。在公平的对比实验设置下,COTS在所有双流方法中取得了最佳性能,且在推理速度上相比最新的单流方法提升了高达10,800倍,同时保持了相当的性能水平。尤为重要的是,COTS模型具备良好的可扩展性,可直接应用于文本到视频检索任务,在广泛使用的MSR-VTT数据集上取得了新的最先进(SOTA)结果。