HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

C2T-Net: Kanalbewusste, kreuzfusionsbasierte Transformer-ähnliche Netze für die Erkennung von Fußgängereigenschaften

{Ba Hung Ngo Thinh V. Le Doanh C. Bui}

C2T-Net: Kanalbewusste, kreuzfusionsbasierte Transformer-ähnliche Netze für die Erkennung von Fußgängereigenschaften

Abstract

Die Erkennung von Fußgängerattributen (Pedestrian Attribute Recognition, PAR) stellt eine bedeutende Herausforderung dar, besitzt jedoch erhebliche praktische Relevanz für verschiedene Sicherheitsanwendungen, darunter Überwachungssysteme. Im Rahmen der UPAR-Challenge präsentiert dieser Artikel das Channel-Aware Cross-Fused Transformer-Style Network (C2T-Net). Dieses Netzwerk integriert effektiv zwei leistungsstarke Transformer-ähnliche Architekturen, nämlich den Swin Transformer (SwinT) und eine maßgeschneiderte Variante des ursprünglichen Vision Transformer (EVA ViT), um sowohl lokale als auch globale Merkmale einer Person zu erfassen und somit eine präzise Attributerkennung zu ermöglichen. Um die komplexen Beziehungen zwischen Kanälen besser zu erfassen, wurde eine kanalbewusste Selbst-Attention-Mechanismus entwickelt und in jeden SwinT-Block integriert. Zudem erfolgt die Fusion der Merkmale beider Transformer-ähnlicher Netzwerke mittels Cross-Fusion, wodurch jedes Netzwerk die textuellen Nuancen des anderen gegenseitig verstärken und verbessern kann. Die Wirksamkeit des vorgeschlagenen Modells wurde anhand seiner Leistung auf drei PAR-Benchmark-Datensätzen nachgewiesen: PA100K, PETA und der privaten Testphase des UPAR2024. Im Vergleich zu Modellen, die keine Vortrainingsmethoden verwenden, erzielte unser Ansatz auf dem PA100K-Datensatz state-of-the-art-Ergebnisse. Auf dem PETA-Datensatz bleibt unsere Leistung wettbewerbsfähig und liegt auf dem Niveau anderer führender Modelle. Besonders hervorzuheben ist die zweitbeste Leistung unseres Modells auf dem UPAR2024-track-1-Testset. Der Quellcode ist unter https://github.com/caodoanh2001/upar_challenge verfügbar.

Benchmarks

BenchmarkMethodikMetriken
pedestrian-attribute-recognition-on-pa-100kC2T-Net
Accuracy: 87.2
pedestrian-attribute-recognition-on-petaC2T-Net
Accuracy: 88.20%

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
C2T-Net: Kanalbewusste, kreuzfusionsbasierte Transformer-ähnliche Netze für die Erkennung von Fußgängereigenschaften | Forschungsarbeiten | HyperAI