2 个月前
VGSG:基于视觉引导的语义组网络用于文本驱动的人脸搜索
He, Shuting ; Luo, Hao ; Jiang, Wei ; Jiang, Xudong ; Ding, Henghui

摘要
基于文本的人体搜索(TBPS)旨在通过文本描述检索目标行人的图像。对于TBPS而言,提取细粒度局部特征并实现跨模态对齐至关重要。现有的方法通常利用外部工具或复杂的跨模态交互来实现细粒度特征的显式对齐,这不仅效率低下而且耗时。在本研究中,我们提出了一种视觉引导的语义分组网络(VGSG),用于基于文本的人体搜索,以提取对齐良好的细粒度视觉和文本特征。在所提出的VGSG中,我们开发了语义分组文本学习(SGTL)模块和视觉引导的知识迁移(VGKT)模块,以在视觉局部线索的指导下提取文本局部特征。在SGTL模块中,为了获得局部文本表示,我们根据语言表达的语义提示从通道维度对文本特征进行分组,从而促使相似的语义模式在没有外部工具的情况下隐式地被分组在一起。在VGKT模块中,采用了视觉引导的注意力机制来提取与视觉相关的文本特征,这些特征天然地与视觉线索对齐,并被称为视觉引导的文本特征。此外,我们设计了一种关系知识迁移方法,包括视觉-语言相似性迁移和类别概率迁移,以自适应地传播视觉引导的文本特征的信息到语义分组的文本特征。借助关系知识迁移的帮助,VGKT能够在没有外部工具和复杂两两交互的情况下实现语义分组文本特征与相应视觉特征的对齐。实验结果表明,在两个具有挑战性的基准数据集上,该方法优于现有的最先进方法。