HyperAIHyperAI

Command Palette

Search for a command to run...

Spatiotemporal Self-Attention-Modellierung mit zeitlichem Patch-Shift für die Aktionserkennung

Wangmeng Xiang Chao Li Biao Wang Xihan Wei Xian-Sheng Hua Lei Zhang

Zusammenfassung

Transformer-basierte Methoden haben in jüngster Zeit erhebliche Fortschritte bei zweidimensionalen Bild-basierten Vision-Aufgaben erzielt. Für dreidimensionale Video-basierte Aufgaben wie die Aktionserkennung führt jedoch die direkte Anwendung von spatiotemporalen Transformers auf Videodaten aufgrund der stark erhöhten Anzahl an Patch-Elementen und der quadratischen Komplexität der Selbst-Attention-Operation zu erheblichen Rechen- und Speicherbelastungen. Die effiziente und effektive Modellierung der 3D-Selbst-Attention für Videodaten stellt daher eine große Herausforderung für Transformer dar. In diesem Paper stellen wir eine Methode namens Temporal Patch Shift (TPS) vor, um eine effiziente 3D-Selbst-Attention-Modellierung in Transformers für die Aktionserkennung auf Basis von Videos zu ermöglichen. TPS verschiebt einen Teil der Patch-Elemente in der zeitlichen Dimension gemäß einem spezifischen Mosaikmuster, wodurch eine herkömmliche räumliche Selbst-Attention-Operation in eine spatiotemporale umgewandelt wird, mit nur geringfügigem zusätzlichen Aufwand. Dadurch kann die 3D-Selbst-Attention mit nahezu identischem Rechenaufwand und Speicherverbrauch wie die 2D-Selbst-Attention berechnet werden. TPS ist ein pluggable Modul, das problemlos in bestehende 2D-Transformer-Modelle integriert werden kann, um die Lernfähigkeit räumlich-zeitlicher Merkmale zu verbessern. Die vorgeschlagene Methode erreicht auf den Datensätzen Something-something V1 & V2, Diving-48 und Kinetics400 wettbewerbsfähige Ergebnisse im Vergleich zu aktuellen State-of-the-Art-Verfahren, wobei sie deutlich effizienter im Hinblick auf Rechen- und Speicherbedarf ist. Der Quellcode von TPS ist unter https://github.com/MartinXM/TPS verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp