2 个月前
基于上下文的全尺度表示下的非局部对齐用于文本行人搜索
Gao, Chenyang ; Cai, Guanyu ; Jiang, Xinyang ; Zheng, Feng ; Zhang, Jun ; Gong, Yifei ; Peng, Pai ; Guo, Xiaowei ; Sun, Xing

摘要
基于文本的人搜索旨在通过描述目标人物的句子在图像库中检索该人物。这一任务极具挑战性,因为模态差距使得有效提取判别特征变得更加困难。此外,行人图像和描述之间的类间差异较小,因此需要全面的信息来对齐不同尺度下的视觉和文本线索。现有的大多数方法仅考虑单个尺度(例如,仅全局尺度或仅局部尺度)内图像和文本之间的局部对齐,然后分别在每个尺度上构建对齐关系。为了解决这一问题,我们提出了一种能够在所有尺度上自适应地对齐图像和文本特征的方法,称为NAFS(即全尺度表示的非局部对齐)。首先,提出了一种新颖的阶梯网络结构,以更好地提取具有局部性的全尺度图像特征。其次,提出了带有局部约束注意力机制的BERT模型,以获得不同尺度下描述的表示。然后,不同于分别在每个尺度上对齐特征,我们应用了一种新颖的情境非局部注意力机制,同时发现所有尺度上的潜在对齐关系。实验结果表明,在基于文本的人搜索数据集上,我们的方法在Top-1准确率方面比现有最佳方法提高了5.53%,在Top-5准确率方面提高了5.35%。代码已发布在 https://github.com/TencentYoutuResearch/PersonReID-NAFS