HyperAIHyperAI
vor 17 Tagen

Spatiotemporal Self-Attention-Modellierung mit zeitlichem Patch-Shift für die Aktionserkennung

Wangmeng Xiang, Chao Li, Biao Wang, Xihan Wei, Xian-Sheng Hua, Lei Zhang
Spatiotemporal Self-Attention-Modellierung mit zeitlichem Patch-Shift für die Aktionserkennung
Abstract

Transformer-basierte Methoden haben in jüngster Zeit erhebliche Fortschritte bei zweidimensionalen Bild-basierten Vision-Aufgaben erzielt. Für dreidimensionale Video-basierte Aufgaben wie die Aktionserkennung führt jedoch die direkte Anwendung von spatiotemporalen Transformers auf Videodaten aufgrund der stark erhöhten Anzahl an Patch-Elementen und der quadratischen Komplexität der Selbst-Attention-Operation zu erheblichen Rechen- und Speicherbelastungen. Die effiziente und effektive Modellierung der 3D-Selbst-Attention für Videodaten stellt daher eine große Herausforderung für Transformer dar. In diesem Paper stellen wir eine Methode namens Temporal Patch Shift (TPS) vor, um eine effiziente 3D-Selbst-Attention-Modellierung in Transformers für die Aktionserkennung auf Basis von Videos zu ermöglichen. TPS verschiebt einen Teil der Patch-Elemente in der zeitlichen Dimension gemäß einem spezifischen Mosaikmuster, wodurch eine herkömmliche räumliche Selbst-Attention-Operation in eine spatiotemporale umgewandelt wird, mit nur geringfügigem zusätzlichen Aufwand. Dadurch kann die 3D-Selbst-Attention mit nahezu identischem Rechenaufwand und Speicherverbrauch wie die 2D-Selbst-Attention berechnet werden. TPS ist ein pluggable Modul, das problemlos in bestehende 2D-Transformer-Modelle integriert werden kann, um die Lernfähigkeit räumlich-zeitlicher Merkmale zu verbessern. Die vorgeschlagene Methode erreicht auf den Datensätzen Something-something V1 & V2, Diving-48 und Kinetics400 wettbewerbsfähige Ergebnisse im Vergleich zu aktuellen State-of-the-Art-Verfahren, wobei sie deutlich effizienter im Hinblick auf Rechen- und Speicherbedarf ist. Der Quellcode von TPS ist unter https://github.com/MartinXM/TPS verfügbar.