Raum-Zeit-Mischungs-Attention für Video-Transformer

Diese Arbeit befasst sich mit der Videoerkennung mittels Transformers. Sehr aktuelle Ansätze auf diesem Gebiet haben bereits vielversprechende Ergebnisse hinsichtlich der Erkennungsgenauigkeit erzielt, waren jedoch in vielen Fällen mit erheblichen zusätzlichen Rechenaufwänden verbunden, da die zeitliche Information zusätzlich modelliert wird. In dieser Arbeit stellen wir ein Video-Transformer-Modell vor, dessen Komplexität linear mit der Anzahl der Frames in der Videosequenz ansteigt und somit im Vergleich zu einem auf Bildern basierenden Transformer-Modell keinen zusätzlichen Overhead verursacht. Um dies zu erreichen, treffen wir zwei Approximationen gegenüber dem vollen Raum-Zeit-Attention-Mechanismus, wie er in herkömmlichen Video-Transformern verwendet wird: (a) Wir beschränken die zeitliche Aufmerksamkeit auf ein lokales zeitliches Fenster und nutzen die Tiefe des Transformers, um eine vollständige zeitliche Abdeckung der Videosequenz zu gewährleisten. (b) Wir verwenden eine effiziente Raum-Zeit-Mischung, um räumliche und zeitliche Positionen gemeinsam zu berücksichtigen, ohne dabei zusätzlichen Rechenaufwand gegenüber einem rein räumlichen Aufmerksamkeitsmodell zu erzeugen. Zudem zeigen wir, wie zwei sehr leichtgewichtige Mechanismen für globale zeitliche Aufmerksamkeit integriert werden können, die zusätzliche Genauigkeitsverbesserungen bei minimalen Kosten ermöglichen. Wir demonstrieren, dass unser Modell auf den gängigsten Datensätzen für Videoerkennung eine sehr hohe Erkennungsgenauigkeit erzielt und gleichzeitig deutlich effizienter ist als andere Video-Transformer-Modelle. Der Quellcode wird öffentlich verfügbar gemacht.