
摘要
组合图像检索扩展了基于内容的图像检索系统,通过允许用户使用参考图像和描述其意图的标题进行搜索。尽管在开发图像-文本合成器以提取判别性的视觉-语言特征方面取得了显著进展,但我们发现了一个此前被忽视的问题——三元组歧义,这阻碍了稳健的特征提取。三元组歧义指的是参考图像、相关标题和目标图像之间出现的一种语义歧义。这种歧义主要是由于注释文本表示的局限性导致的,结果产生了许多噪声三元组,其中多个视觉上不同的候选图像可以与相同的参考对(即一个参考图像+一个相关标题)匹配。为了解决这一挑战,我们提出了共识网络(Consensus Network, Css-Net),该网络受到心理学中群体优于个体的概念启发。Css-Net 包含两个核心组件:(1) 一个包含四种不同合成器的共识模块,每个合成器生成独特的图像-文本嵌入,促进互补特征提取并减少对任何单一、可能有偏见的合成器的依赖;(2) 一种 Kullback-Leibler 散度损失函数,鼓励学习合成器之间的相互作用以促进共识输出。在评估过程中,四个合成器的决策通过加权方案结合在一起,增强了整体的一致性。在基准数据集上,特别是在 FashionIQ 数据集上,Css-Net 展现出了显著的改进。值得注意的是,它在 R@10 和 R@50 上分别实现了 2.77% 和 6.67% 的召回率提升,突显了其在解决现有方法基本局限性方面的竞争力。