11 天前

ImageScope:通过大模型集体推理统一语言引导的图像检索

Pengfei Luo, Jingbo Zhou, Tong Xu, Yuan Xia, Linli Xu, Enhong Chen
ImageScope:通过大模型集体推理统一语言引导的图像检索
摘要

随着在线内容中图像的广泛传播,过去十年间,基于语言引导的图像检索(Language-Guided Image Retrieval, LGIR)已成为研究热点,涵盖多种输入形式各异的子任务。尽管大规模多模态模型(Large Multimodal Models, LMMs)的发展显著推动了这些任务的进展,但现有方法通常将各个任务孤立处理,需为每项任务单独构建系统。这不仅增加了系统的复杂性与维护成本,还加剧了由语言歧义性和图像内容复杂性带来的挑战,导致检索系统难以提供准确可靠的结果。为此,我们提出 ImageScope,一种无需训练、基于三阶段架构的统一框架,通过集体推理实现 LGIR 任务的整合。其核心思想源于语言的组合性特征:将多样化的 LGIR 任务统一为一种通用的文本到图像检索流程,同时利用 LMM 的推理能力作为通用验证机制,对检索结果进行优化与精炼。具体而言,在第一阶段,我们通过链式思维(Chain-of-Thought, CoT)推理,在不同语义粒度层次上合成搜索意图,从而提升框架的鲁棒性;在第二与第三阶段,分别通过局部谓词命题验证与全局成对评估,对检索结果进行反思与校验。在六个 LGIR 数据集上的实验表明,ImageScope 在性能上优于多个先进基线方法。全面的评估与消融研究进一步验证了所提出设计的有效性与合理性。

ImageScope:通过大模型集体推理统一语言引导的图像检索 | 最新论文 | HyperAI超神经