11 天前

C2T-Net:面向行人属性识别的通道感知交叉融合Transformer风格网络

{Ba Hung Ngo, Thinh V. Le, Doanh C. Bui}
C2T-Net:面向行人属性识别的通道感知交叉融合Transformer风格网络
摘要

行人属性识别(Pedestrian Attribute Recognition, PAR)在诸多安全应用(如监控系统)中具有重要实践意义,但同时也面临巨大挑战。在UPAR挑战赛的背景下,本文提出了一种通道感知的跨融合Transformer结构网络——C2T-Net(Channel-Aware Cross-Fused Transformer-Style Networks)。该网络有效融合了两种强大的Transformer架构:Swin Transformer(SwinT)与一种定制化的原始视觉Transformer(EVA ViT)。通过这种设计,模型能够同时捕捉行人的局部细节与全局语义特征,从而实现更精确的属性识别。为更好地建模通道之间的复杂关系,本文在每个SwinT模块中引入了一种通道感知的自注意力机制。此外,通过跨融合策略整合两种Transformer结构的特征表示,使两者能够相互增强,充分挖掘彼此所包含的纹理细节信息。实验结果表明,所提模型在三个PAR基准数据集上均展现出优异性能:PA100K、PETA以及UPAR2024私有测试集。在PA100K数据集上,本方法在不依赖任何预训练技术的模型中达到了当前最优水平;在PETA数据集上,性能与现有顶尖模型相当,保持了较强的竞争力。尤为突出的是,在UPAR2024-Track-1测试集上,本模型取得了第二名的优异成绩。相关源代码已开源,地址为:https://github.com/caodoanh2001/upar_challenge。

C2T-Net:面向行人属性识别的通道感知交叉融合Transformer风格网络 | 最新论文 | HyperAI超神经