17 天前

视图解耦Transformer在空地摄像头网络下的行人重识别中的应用

Quan Zhang, Lei Wang, Vishal M. Patel, Xiaohua Xie, Jianhuang Lai
视图解耦Transformer在空地摄像头网络下的行人重识别中的应用
摘要

现有的行人重识别方法在同质摄像头之间的外观特征匹配任务中(如地面-地面匹配)已取得显著进展。然而,作为更具实际应用价值的场景,异质摄像头之间的空中-地面行人重识别(Aerial-Ground Person Re-Identification, AGPReID)却鲜受关注。针对AGPReID中最为关键的挑战——由于视角差异剧烈导致的判别性身份表征被严重破坏的问题,本文提出了一种简洁而高效的框架:视图解耦Transformer(View-Decoupled Transformer, VDT)。VDT设计了两个核心组件,用于分离与视角相关和与视角无关的特征:层级减法分离(hierarchical subtractive separation)与正交损失(orthogonal loss)。其中,前者在模型内部实现两类特征的分离,后者则约束二者相互独立,从而提升特征的判别能力。此外,本文构建了一个大规模的AGPReID数据集CARGO,包含五组/八组空中/地面摄像头、5,000个身份以及108,563张图像。在两个数据集上的实验表明,VDT是一种可行且有效的AGPReID解决方案,在CARGO数据集上相比先前方法在mAP/Rank-1指标上分别提升最高达5.0%/2.7%,在AG-ReID数据集上提升3.7%/5.2%,同时保持了相近的计算复杂度。本项目代码已开源,访问地址为:https://github.com/LinlyAC/VDT-AGPReID。