Video Swin Transformer

Die Vision-Community erlebt einen Paradigmenwechsel von CNNs hin zu Transformers, wobei reine Transformer-Architekturen die höchste Genauigkeit auf den wichtigsten Videoerkennungsbenchmarks erzielt haben. Alle dieser Video-Modelle basieren auf Transformer-Schichten, die Patche über räumliche und zeitliche Dimensionen global verknüpfen. In diesem Paper setzen wir stattdessen auf eine induktive Voreingenommenheit der Lokalität in Video-Transformern, was eine bessere Abwägung zwischen Geschwindigkeit und Genauigkeit im Vergleich zu vorherigen Ansätzen ermöglicht, die selbst bei räumlich-zeitlicher Faktorisierung die Selbst-Attention global berechnen. Die Lokalität der vorgeschlagenen Video-Architektur wird erreicht, indem die Swin-Transformer-Architektur, ursprünglich für den Bildbereich entwickelt, angepasst wird, während gleichzeitig die Stärke vortrainierter Bildmodelle genutzt wird. Unser Ansatz erzielt state-of-the-art Genauigkeit auf einer Vielzahl von Videoerkennungsbenchmarks, darunter Aktionserkennung (84,9 % Top-1-Accuracy auf Kinetics-400 und 86,1 % Top-1-Accuracy auf Kinetics-600 mit etwa 20-fach weniger Vortrainingsdaten und etwa 3-fach kleinerer Modellgröße) sowie zeitliche Modellierung (69,6 % Top-1-Accuracy auf Something-Something v2). Der Quellcode und die Modelle werden öffentlich unter https://github.com/SwinTransformer/Video-Swin-Transformer verfügbar gemacht.