2 个月前

DLCR：一种通过扩散生成数据扩展框架以实现换衣行人重识别

Siddiqui, Nyle ; Croitoru, Florinel Alin ; Nayak, Gaurav Kumar ; Ionescu, Radu Tudor ; Shah, Mubarak

摘要

随着生成扩散模型近期展现的强大能力，一个开放的研究问题是这些模型生成的图像是否可以用于学习更好的视觉表示。虽然这种生成数据扩展可能足以应对较简单的视觉任务，但我们探讨了其在更具挑战性的判别任务——换衣行人重识别（CC-ReID）中的有效性。CC-ReID旨在匹配出现在非重叠摄像头中的人，即使他们在不同摄像头之间更换了衣物。当前的CC-ReID模型不仅受到现有CC-ReID数据集中服装多样性的限制，而且生成额外数据以保留重要个人特征进行准确识别也是一个当前的难题。为了解决这一问题，我们提出了DLCR，一种新颖的数据扩展框架，该框架利用预训练的扩散模型和大语言模型（LLMs）来准确生成穿着不同服装的个体的多样化图像。我们为五个基准CC-ReID数据集（PRCC、CCVID、LaST、VC-Clothes和LTCC）生成了额外的数据，并将其服装多样性提高了10倍，总计生成超过210万张图像。DLCR采用基于扩散的文字引导修复技术，根据使用LLMs构建的服装提示条件生成合成数据，仅修改主体的衣物而保留其个人可识别特征。通过这一大规模的数据增加，我们引入了两种新颖的策略——渐进式学习和测试时预测优化——分别减少了训练时间和进一步提升了CC-ReID性能。在PRCC数据集上，通过使用DLCR生成的数据训练CAL（一种先前的最先进方法），我们获得了11.3%的显著top-1准确率提升。我们已公开发布每个数据集的代码和生成数据，地址如下：https://github.com/CroitoruAlin/dlcr。