HyperAIHyperAI

Command Palette

Search for a command to run...

带噪声对应学习在文本到图像行人重识别中的应用

Yang Qin Yingke Chen Dezhong Peng Xi Peng Joey Tianyi Zhou Peng Hu

摘要

基于文本到图像的人重识别(TIReID)是跨模态社区中的一个引人关注的话题,其目标是根据文本查询检索目标人物。尽管已提出多种TIReID方法并取得了令人鼓舞的性能,但这些方法隐含假设训练图像-文本对是正确对齐的,这在实际场景中并不总是成立。实际上,由于图像质量低下和标注错误,图像-文本对不可避免地存在部分相关甚至错误相关的情况,即噪声对应(Noisy Correspondence, NC)。为了解决这一问题,我们提出了一种新颖的鲁棒双嵌入方法(Robust Dual Embedding, RDE),该方法即使在存在NC的情况下也能学习到鲁棒的视觉-语义关联。具体而言,RDE包含两个主要组件:1)一个自信共识划分(Confident Consensus Division, CCD)模块,该模块利用双嵌入模块的双重粒度决策来获得一组共识性的干净训练数据,从而使模型能够学习正确的、可靠的视觉-语义关联;2)一种三元组对齐损失(Triplet Alignment Loss, TAL),该损失将传统的三元组排序损失从最难的负样本放宽到所有负样本的对数指数上界,从而防止模型在NC下崩溃,并且能够专注于难负样本以实现更好的性能。我们在三个公开基准数据集CUHK-PEDES、ICFG-PEDES和RSTPReID上进行了广泛的实验,以评估我们RDE方法的性能和鲁棒性。我们的方法在这三个数据集上无论是否加入合成噪声对应均达到了最先进的结果。代码可在https://github.com/QinYang79/RDE获取


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
带噪声对应学习在文本到图像行人重识别中的应用 | 论文 | HyperAI超神经