HyperAIHyperAI
vor 12 Tagen

C2T-Net: Kanalbewusste, kreuzfusionsbasierte Transformer-ähnliche Netze für die Erkennung von Fußgängereigenschaften

{Ba Hung Ngo, Thinh V. Le, Doanh C. Bui}
C2T-Net: Kanalbewusste, kreuzfusionsbasierte Transformer-ähnliche Netze für die Erkennung von Fußgängereigenschaften
Abstract

Die Erkennung von Fußgängerattributen (Pedestrian Attribute Recognition, PAR) stellt eine bedeutende Herausforderung dar, besitzt jedoch erhebliche praktische Relevanz für verschiedene Sicherheitsanwendungen, darunter Überwachungssysteme. Im Rahmen der UPAR-Challenge präsentiert dieser Artikel das Channel-Aware Cross-Fused Transformer-Style Network (C2T-Net). Dieses Netzwerk integriert effektiv zwei leistungsstarke Transformer-ähnliche Architekturen, nämlich den Swin Transformer (SwinT) und eine maßgeschneiderte Variante des ursprünglichen Vision Transformer (EVA ViT), um sowohl lokale als auch globale Merkmale einer Person zu erfassen und somit eine präzise Attributerkennung zu ermöglichen. Um die komplexen Beziehungen zwischen Kanälen besser zu erfassen, wurde eine kanalbewusste Selbst-Attention-Mechanismus entwickelt und in jeden SwinT-Block integriert. Zudem erfolgt die Fusion der Merkmale beider Transformer-ähnlicher Netzwerke mittels Cross-Fusion, wodurch jedes Netzwerk die textuellen Nuancen des anderen gegenseitig verstärken und verbessern kann. Die Wirksamkeit des vorgeschlagenen Modells wurde anhand seiner Leistung auf drei PAR-Benchmark-Datensätzen nachgewiesen: PA100K, PETA und der privaten Testphase des UPAR2024. Im Vergleich zu Modellen, die keine Vortrainingsmethoden verwenden, erzielte unser Ansatz auf dem PA100K-Datensatz state-of-the-art-Ergebnisse. Auf dem PETA-Datensatz bleibt unsere Leistung wettbewerbsfähig und liegt auf dem Niveau anderer führender Modelle. Besonders hervorzuheben ist die zweitbeste Leistung unseres Modells auf dem UPAR2024-track-1-Testset. Der Quellcode ist unter https://github.com/caodoanh2001/upar_challenge verfügbar.

C2T-Net: Kanalbewusste, kreuzfusionsbasierte Transformer-ähnliche Netze für die Erkennung von Fußgängereigenschaften | Neueste Forschungsarbeiten | HyperAI