HyperAIHyperAI
vor 11 Tagen

PAT: Position-Aware Transformer für die dichte mehrfachbeschriftete Aktionsdetektion

Faegheh Sardari, Armin Mustafa, Philip J. B. Jackson, Adrian Hilton
PAT: Position-Aware Transformer für die dichte mehrfachbeschriftete Aktionsdetektion
Abstract

Wir präsentieren PAT, ein auf Transformers basierendes Netzwerk, das komplexe zeitliche Ko-Occurrenz-Aktionsabhängigkeiten in Videos durch Ausnutzung mehrskaliger zeitlicher Merkmale lernt. Bei bestehenden Methoden geht die zeitliche Positionsinformation durch die Selbst-Attention-Mechanismen in Transformers verloren, was für eine robuste Aktionsdetektion essenziell ist. Um dieses Problem anzugehen, (i) integrieren wir eine relative Positionscodierung in den Selbst-Attention-Mechanismus und (ii) nutzen wir mehrskalige zeitliche Beziehungen durch die Einführung eines neuen nicht-hierarchischen Netzwerks – im Gegensatz zu jüngeren, auf Transformers basierenden Ansätzen, die eine hierarchische Struktur verwenden. Wir argumentieren, dass die Kombination des Selbst-Attention-Mechanismus mit mehreren Sub-Sampling-Prozessen in hierarchischen Ansätzen zu einem verstärkten Verlust von Positionsinformation führt. Wir evaluieren die Leistung unseres vorgeschlagenen Ansatzes auf zwei anspruchsvollen, dichten, mehrlabelbasierten Benchmark-Datensätzen und zeigen, dass PAT die derzeit beste Ergebnisqualität um 1,1 % und 0,6 % mAP auf den Datensätzen Charades und MultiTHUMOS verbessert, wodurch jeweils neue SOTA-Werte von 26,5 % und 44,6 % mAP erreicht werden. Zudem führen wir umfangreiche Ablationsstudien durch, um die Auswirkung der verschiedenen Komponenten unseres vorgeschlagenen Netzwerks zu untersuchen.