17 天前
CoLLM:一种用于组合图像检索的大型语言模型
Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava

摘要
组合图像检索(Composed Image Retrieval, CIR)是一项复杂任务,旨在根据多模态查询检索目标图像。典型的训练数据由三元组构成,包括参考图像、对期望修改的文本描述以及目标图像。这类数据的获取成本高昂且耗时。由于CIR数据集稀缺,现有研究多采用零样本方法,利用合成三元组或借助大规模网络爬取的图像-文本对来训练视觉-语言模型(Vision-Language Models, VLMs)。然而,这些方法存在显著局限:合成三元组规模有限、多样性不足,且修改文本缺乏自然性;而图像-文本对因缺乏三元组结构,难以支持多模态查询的联合嵌入学习。此外,现有方法在处理复杂且细微的修改描述时表现不佳,难以实现视觉与语言模态之间深层次的融合与理解。为此,本文提出CoLLM——一种端到端的统一框架,有效解决了上述挑战。该方法通过从图像-文本对中实时生成三元组,实现了无需人工标注的监督训练。我们利用大型语言模型(Large Language Models, LLMs)生成参考图像与修改文本的联合嵌入,从而促进更深层次的多模态融合。此外,我们构建了大规模的多文本CIR数据集——Multi-Text CIR(MTCIR),包含340万条样本,并对现有的CIR基准数据集(CIRR与Fashion-IQ)进行了优化与精炼,以提升评估的可靠性。实验结果表明,CoLLM在多个CIR基准和设置下均达到了当前最优性能。MTCIR数据集在各项指标上表现出色,性能提升最高达15%。经优化的基准测试体系为CIR模型提供了更加可靠和严谨的评估标准,有力推动了该领域的发展。