2 个月前

跨模态自适应双重关联用于文本到图像的人脸检索

Lin, Dixuan ; Peng, Yixing ; Meng, Jingke ; Zheng, Wei-Shi
跨模态自适应双重关联用于文本到图像的人脸检索
摘要

基于文本到图像的人重识别(ReID)旨在根据给定的文本描述检索出相应人物的图像。其主要挑战在于学习视觉和文本模态之间详细信息的关系。现有的研究主要集中在学习一个潜在空间以缩小模态差距,并进一步建立两种模态之间的局部对应关系。然而,这些方法假设图像到文本和文本到图像的关联是模态无关的,导致了次优的关联效果。在本工作中,我们展示了图像到文本关联与文本到图像关联之间的差异,并提出了CADA:跨模态自适应双向关联(Cross-Modal Adaptive Dual Association),该方法精细地建立了双向的图像-文本详细关联。我们的方法采用了一个基于解码器的自适应双向关联模块,实现了视觉和文本模态之间的完全交互,从而允许进行双向和自适应的跨模态对应关系建模。具体而言,本文提出了一种双向关联机制:文本Token到图像Patch的关联(ATP)和图像区域到文本属性的关联(ARA)。为了自适应地建模ATP,我们基于以下事实进行了设计:基于错误关联聚合跨模态特征会导致特征失真。对于建模ARA,由于属性通常是区分人物的第一线索,我们提出通过预测被遮盖的文本短语来探索属性级别的关联。最后,我们学习了文字与图像之间的双向关联,并且实验结果证明了我们提出的双关模型的优势。代码将公开发布。