摘要
基于文本的人体检索旨在从图像库中检索出与给定文本描述最匹配的行人图像。以往的方法通常采用软注意力机制来推断图像区域与句子中对应词汇之间的语义对齐关系。然而,这类方法可能将无关的多模态特征进行融合,从而引发匹配冗余问题。为此,本文提出一种新颖的分层Gumbel注意力网络,通过Gumbel top-k重参数化算法实现基于文本的人体检索。具体而言,该方法能够自适应地选择图像中语义相关性强的区域以及文本中相关性强的词汇或短语,以实现精确的对齐与相似度计算。这种硬选择策略有助于融合强相关性的多模态特征,有效缓解匹配冗余问题。同时,本文设计了一种Gumbel top-k重参数化算法,作为低方差、无偏的梯度估计器,以端到端的方式解决硬注意力机制中的离散性问题。此外,模型采用分层自适应匹配策略,从词级、短语级和句子级三个不同粒度层次进行细粒度匹配。大量实验结果表明,该方法在性能上达到当前最优水平。在CUHK-PEDES数据集上,相较于现有最优方法,本文方法在文本到图像检索任务中分别实现了8.24%的Rank-1和7.6%的mAP相对提升;在图像到文本检索任务中分别实现了5.58%的Rank-1和6.3%的mAP相对提升。