C2T-Net: 보행자 속성 인식을 위한 채널 인지형 크로스 퓨전 Transformer 스타일 네트워크

보행자 속성 인식(Pedestrian Attribute Recognition, PAR)은 감시를 포함한 다양한 보안 응용 분야에서 실용적인 의의를 지니며, 동시에 큰 도전 과제로 남아 있다. UPAR 챌린지의 맥락에서 본 논문은 채널 인지형 교차 융합 트랜스포머 스타일 네트워크(Channel-Aware Cross-Fused Transformer-Style Networks, C2T-Net)를 제안한다. 이 네트워크는 스위니 트랜스포머(Swin Transformer, SwinT)와 원시 비전 트랜스포머(vanilla vision transformer)의 맞춤형 변형인 EVA ViT이라는 두 가지 강력한 트랜스포머 스타일 네트워크를 효과적으로 통합하여, 개인의 국소적 및 전역적 특징을 동시에 포착함으로써 정밀한 속성 인식을 가능하게 한다. 복잡한 채널 간 관계를 보다 잘 이해할 수 있도록, 각 SwinT 블록에 채널 인지형 자기 주의(self-attention) 메커니즘을 설계하여 통합하였다. 또한, 두 트랜스포머 스타일 네트워크의 특징을 교차 융합(cross-fusion) 방식으로 결합함으로써, 각 네트워크가 상호 보완적으로 작용하여 서로의 텍스처적 세부 정보를 강화할 수 있도록 하였다. 제안된 모델의 효율성은 PA100K, PETA, 그리고 UPAR2024 개인 테스트 세트의 세 가지 PAR 벤치마크에서의 성능을 통해 입증되었다. PA100K 벤치마크에서는 사전 훈련 기법을 사용하지 않는 모델들과 비교하여 최고 성능을 기록하였다. PETA 데이터셋에서도 다른 최첨단 모델들과 경쟁력을 유지하며 높은 수준의 성능을 보였다. 특히 UPAR2024-track-1 테스트 세트에서는 2위 성과를 거두었으며, 이는 모델의 우수성을 입증하는 중요한 결과이다. 소스 코드는 https://github.com/caodoanh2001/upar_challenge 에서 공개되어 있다.