BEVT: BERT-Vortrainierung von Video-Transformern

Diese Arbeit untersucht die BERT-Vorstudie von Video-Transformern. Es handelt sich um eine einfache, dennoch lohnenswerte Erweiterung, gegeben den jüngsten Erfolg der BERT-Vorstudie von Bild-Transformern. Wir stellen BEVT vor, das die Lernung von Video-Repräsentationen in die räumliche Repräsentationslernung und die Lernung zeitlicher Dynamik entkoppelt. Insbesondere führt BEVT zunächst eine maskierte Bildmodellierung auf Bilddaten durch und führt anschließend eine gemeinsame maskierte Bild- und maskierte Videomodellierung auf Videodaten durch. Diese Architektur wird durch zwei Beobachtungen motiviert: 1) Transformers, die auf Bilddatensätzen trainiert wurden, liefern gute räumliche Vorkenntnisse, die die Lernung von Video-Transformern erleichtern können, die ansonsten oft rechenintensiv sind, wenn sie von Grund auf trainiert werden; 2) Diskriminative Hinweise – also räumliche und zeitliche Informationen –, die zur korrekten Vorhersage erforderlich sind, variieren je nach Video aufgrund großer innerklassiger und zwischenklassiger Variationen. Wir führen umfangreiche Experimente an drei anspruchsvollen Video-Benchmarks durch, bei denen BEVT sehr vielversprechende Ergebnisse erzielt. Auf Kinetics 400, bei dem die Erkennung vor allem auf diskriminativen räumlichen Repräsentationen basiert, erreicht BEVT Ergebnisse, die mit starken überwachten Benchmarks vergleichbar sind. Auf Something-Something-V2 und Diving 48, die Videos enthalten, die auf zeitlichen Dynamiken basieren, übertrifft BEVT alle alternativen Benchmarks deutlich und erreicht mit einer Top-1-Accuracy von jeweils 71,4 % und 87,2 % den Stand der Technik. Der Quellcode wird unter \url{https://github.com/xyzforever/BEVT} zur Verfügung gestellt.