ViViT: Ein Video Vision Transformer

Wir präsentieren rein-transformer-basierte Modelle für die Video-Klassifikation, die sich an dem jüngsten Erfolg solcher Modelle bei der Bildklassifikation orientieren. Unser Modell extrahiert spatio-temporale Tokens aus dem Eingabevideo, die anschließend durch eine Reihe von Transformer-Schichten kodiert werden. Um mit den langen Sequenzen von Tokens umgehen zu können, die bei Videos auftreten, schlagen wir mehrere effiziente Varianten unseres Modells vor, die die räumlichen und zeitlichen Dimensionen der Eingabe faktorisieren. Obwohl Transformer-basierte Modelle bekanntermaßen nur dann effektiv sind, wenn große Trainingsdatensätze zur Verfügung stehen, zeigen wir, wie wir das Modell während des Trainings effektiv regularisieren und vortrainierte Bildmodelle nutzen können, um auch auf vergleichsweise kleinen Datensätzen effizient trainieren zu können. Wir führen umfassende Ablationsstudien durch und erreichen state-of-the-art-Ergebnisse auf mehreren Benchmarks für Video-Klassifikation, darunter Kinetics 400 und 600, Epic Kitchens, Something-Something v2 und Moments in Time, wobei wir vorherige Methoden auf Basis tiefer 3D-Faltungsnetze übertrifft. Um weitere Forschung zu erleichtern, stellen wir den Quellcode unter https://github.com/google-research/scenic/tree/main/scenic/projects/vivit zur Verfügung.