VidTr: Video Transformer ohne Faltung

Wir stellen den Video Transformer (VidTr) mit separabler Aufmerksamkeit für die Video-Klassifikation vor. Im Vergleich zu üblichen 3D-Netzwerken ist VidTr in der Lage, räumlich-zeitliche Informationen durch geschachtelte Aufmerksamkeiten zu aggregieren und dabei eine bessere Leistung mit höherer Effizienz zu erzielen. Zunächst führen wir den grundlegenden Video-Transformer ein und zeigen, dass das Transformer-Modul in der Lage ist, räumlich-zeitliches Modellieren direkt aus rohen Pixeln durchzuführen, dies jedoch mit hohem Speicherverbrauch verbunden ist. Anschließend präsentieren wir VidTr, das den Speicherverbrauch um den Faktor 3,3 reduziert, ohne die Leistung zu beeinträchtigen. Um das Modell weiter zu optimieren, schlagen wir eine auf der Standardabweichung basierende Top-K-Pooling-Methode für die Aufmerksamkeit ($pool_{topK_std}$) vor, die die Berechnungskosten senkt, indem informative Merkmale entlang der zeitlichen Dimension eliminiert werden. VidTr erreicht auf fünf häufig verwendeten Datensätzen Spitzenleistungen bei geringerem computacionalen Aufwand und demonstriert damit sowohl Effizienz als auch Wirksamkeit unseres Designs. Schließlich zeigen Fehleranalyse und Visualisierungen, dass VidTr besonders gut bei der Vorhersage von Aktionen ist, die eine langfristige zeitliche Schlussfolgerung erfordern.