Implizite zeitliche Modellierung mit lernbarer Ausrichtung für die Videoerkennung

Contrastive Language-Image Pretraining (CLIP) hat bei verschiedenen Bildaufgaben bemerkenswerte Erfolge gezeigt. Die Erweiterung von CLIP durch effektives zeitliches Modellieren bleibt jedoch ein offenes und entscheidendes Problem. Bestehende Ansätze, die entweder faktorisiert oder gemeinsam räumlich-zeitlich modellieren, treffen Kompromisse zwischen Effizienz und Leistungsfähigkeit. Obwohl die zeitliche Information innerhalb von „straight-through-Tuben“ in der Literatur weit verbreitet ist, stellen wir fest, dass eine einfache Frame-Ausrichtung bereits ausreichend ist, ohne dass zeitliche Aufmerksamkeit erforderlich wäre. Um dieses Problem zu adressieren, stellen wir in diesem Paper eine neuartige Methode namens Implicit Learnable Alignment (ILA) vor, die den Aufwand für zeitliches Modellieren minimiert, gleichzeitig jedoch außergewöhnlich hohe Leistung erzielt. Konkret wird für ein Frame-Paar in jedem Frame ein interaktiver Punkt vorhergesagt, der als region mit reichhaltiger gegenseitiger Information dient. Durch die Verstärkung der Merkmale in der Nähe dieses interaktiven Punkts werden die beiden Frames implizit ausgerichtet. Die ausgerichteten Merkmale werden anschließend zu einem einzigen Token aggregiert, der in der nachfolgenden räumlichen Selbst-Aufmerksamkeit genutzt wird. Unser Ansatz ermöglicht es, teure oder unzureichende zeitliche Selbst-Aufmerksamkeit in Videos zu eliminieren. Umfangreiche Experimente auf Standardbenchmarks belegen die Überlegenheit und Allgemeingültigkeit unseres Moduls. Insbesondere erreicht die vorgeschlagene ILA auf Kinetics-400 eine Top-1-Accuracy von 88,7 %, wobei deutlich weniger FLOPs benötigt werden als bei Swin-L und ViViT-H. Der Quellcode ist unter https://github.com/Francis-Rings/ILA verfügbar.