Auf den Ball achten: Trajektorien-Attention in Video-Transformern

Bei Video-Transformern wird die Zeitdimension oft auf dieselbe Weise behandelt wie die beiden räumlichen Dimensionen. In Szenen, in denen Objekte oder die Kamera sich bewegen, kann ein physikalischer Punkt, der in Frame $t$ an einer bestimmten Stelle abgebildet ist, völlig unabhängig von dem sein, was an derselben Stelle im Frame $t+k$ zu finden ist. Diese zeitlichen Korrespondenzen sollten modelliert werden, um das Lernen über dynamische Szenen zu erleichtern. Dazu schlagen wir einen neuen, problemunabhängigen Baustein für Video-Transformers vor – die Trajektorien-Attention –, die Informationen entlang implizit bestimmter Bewegungspfade aggregiert. Zusätzlich präsentieren wir eine neue Methode zur Lösung der quadratischen Abhängigkeit von Berechnungsaufwand und Speicherbedarf von der Eingabegröße, was besonders für hochauflösende oder lange Videos von Bedeutung ist. Obwohl diese Ansätze in einer Vielzahl von Anwendungsszenarien nützlich sind, wenden wir sie speziell auf die Aufgabe der Video-Aktionserkennung mit einem Transformer-Modell an und erreichen dabei Stand der Technik Ergebnisse auf den Datensätzen Kinetics, Something–Something V2 und Epic-Kitchens. Der Quellcode und die Modelle sind verfügbar unter: https://github.com/facebookresearch/Motionformer