Multiview Transformers für die Videoerkennung

Die Verständnis von Videos erfordert Schlussfolgerungen auf mehreren räumlich-zeitlichen Auflösungsstufen – von kurzen, feinkörnigen Bewegungen bis hin zu Ereignissen, die sich über längere Zeiträume erstrecken. Obwohl Transformer-Architekturen in letzter Zeit den Stand der Technik vorangetrieben haben, wurden dabei unterschiedliche räumlich-zeitliche Auflösungen bisher nicht explizit modelliert. Hierfür präsentieren wir Multiview Transformers for Video Recognition (MTV). Unser Modell besteht aus separaten Encodern, die verschiedene Perspektiven des Eingabevideos repräsentieren, verbunden durch laterale Verbindungen zur Fusionsinformation über verschiedene Perspektiven hinweg. Wir führen umfassende Ablationsstudien durch und zeigen, dass MTV in Bezug auf Genauigkeit und Rechenaufwand konsistent besser abschneidet als Ein-Perspektive-Modelle über eine Vielzahl von Modellgrößen hinweg. Zudem erreichen wir state-of-the-art Ergebnisse auf sechs etablierten Datensätzen und verbessern diese weiterhin durch großskaliges Vortraining. Der Quellcode und die Modellcheckpoint-Dateien sind unter folgender Adresse verfügbar: https://github.com/google-research/scenic/tree/main/scenic/projects/mtv.