HyperAIHyperAI

Command Palette

Search for a command to run...

PAT: Position-Aware Transformer für die dichte mehrfachbeschriftete Aktionsdetektion

Faegheh Sardari Armin Mustafa Philip J. B. Jackson Adrian Hilton

Zusammenfassung

Wir präsentieren PAT, ein auf Transformers basierendes Netzwerk, das komplexe zeitliche Ko-Occurrenz-Aktionsabhängigkeiten in Videos durch Ausnutzung mehrskaliger zeitlicher Merkmale lernt. Bei bestehenden Methoden geht die zeitliche Positionsinformation durch die Selbst-Attention-Mechanismen in Transformers verloren, was für eine robuste Aktionsdetektion essenziell ist. Um dieses Problem anzugehen, (i) integrieren wir eine relative Positionscodierung in den Selbst-Attention-Mechanismus und (ii) nutzen wir mehrskalige zeitliche Beziehungen durch die Einführung eines neuen nicht-hierarchischen Netzwerks – im Gegensatz zu jüngeren, auf Transformers basierenden Ansätzen, die eine hierarchische Struktur verwenden. Wir argumentieren, dass die Kombination des Selbst-Attention-Mechanismus mit mehreren Sub-Sampling-Prozessen in hierarchischen Ansätzen zu einem verstärkten Verlust von Positionsinformation führt. Wir evaluieren die Leistung unseres vorgeschlagenen Ansatzes auf zwei anspruchsvollen, dichten, mehrlabelbasierten Benchmark-Datensätzen und zeigen, dass PAT die derzeit beste Ergebnisqualität um 1,1 % und 0,6 % mAP auf den Datensätzen Charades und MultiTHUMOS verbessert, wodurch jeweils neue SOTA-Werte von 26,5 % und 44,6 % mAP erreicht werden. Zudem führen wir umfangreiche Ablationsstudien durch, um die Auswirkung der verschiedenen Komponenten unseres vorgeschlagenen Netzwerks zu untersuchen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp