HyperAIHyperAI
il y a 11 jours

C2T-Net : Réseaux Transformer de style à fusion croisée consciente des canaux pour la reconnaissance des attributs de piétons

{Ba Hung Ngo, Thinh V. Le, Doanh C. Bui}
C2T-Net : Réseaux Transformer de style à fusion croisée consciente des canaux pour la reconnaissance des attributs de piétons
Résumé

La reconnaissance des attributs des piétons (PAR) constitue un défi majeur, tout en revêtant une importance pratique dans diverses applications de sécurité, notamment la surveillance. Dans le cadre du défi UPAR, ce papier présente le modèle Channel-Aware Cross-Fused Transformer-Style Networks (C2T-Net). Ce réseau intègre efficacement deux architectures de type Transformer puissantes : le Swin Transformer (SwinT) et une variante personnalisée du vision transformer classique (EVA ViT). L’objectif est de capturer à la fois les aspects locaux et globaux d’un individu afin d’assurer une reconnaissance précise des attributs. Pour mieux comprendre les relations complexes entre les canaux, un mécanisme d’attention auto-orientée par canal a été conçu et intégré dans chaque bloc SwinT. Par ailleurs, la fusion des caractéristiques provenant des deux réseaux de type Transformer est réalisée par une fusion croisée, permettant à chaque réseau d’amplifier mutuellement les nuances texturales présentes dans l’autre. L’efficacité du modèle proposé a été démontrée par ses performances sur trois benchmarks de PAR : PA100K, PETA et le jeu de test privé UPAR2024. Sur le benchmark PA100K, notre approche atteint des résultats de pointe par rapport aux modèles ne faisant appel à aucune technique de pré-entraînement. Sur le jeu de données PETA, nos performances restent compétitives, au niveau des modèles les plus avancés. Notamment, notre modèle a obtenu la deuxième place sur le jeu de test UPAR2024-track-1. Le code source est disponible à l’adresse suivante : https://github.com/caodoanh2001/upar_challenge.

C2T-Net : Réseaux Transformer de style à fusion croisée consciente des canaux pour la reconnaissance des attributs de piétons | Articles de recherche récents | HyperAI