HyperAIHyperAI
vor 3 Monaten

Standalone Inter-Frame Attention in Video Models

Fuchen Long, Zhaofan Qiu, Yingwei Pan, Ting Yao, Jiebo Luo, Tao Mei
Standalone Inter-Frame Attention in Video Models
Abstract

Bewegung, als ein charakteristisches Merkmal von Videos, ist entscheidend für die Entwicklung von Modellen zur Videoverstehensanalyse. Moderne tiefgreifende Lernmodelle nutzen Bewegung entweder durch die Durchführung von raumzeitlichen 3D-Faltungen, durch die Zerlegung von 3D-Faltungen in räumliche und zeitliche Faltungen getrennt oder durch die Berechnung von Selbst-Attention entlang der zeitlichen Dimension. Die implizite Annahme hinter diesen Erfolgen ist, dass die Merkmalskarten über aufeinanderfolgende Frames gut aggregiert werden können. Dennoch gilt diese Annahme nicht immer, insbesondere für Regionen mit großer Verformung. In diesem Artikel präsentieren wir ein neues Rezept für einen inter-frame-Attention-Block, namens Stand-alone Inter-Frame Attention (SIFA), das innovativ die Verformung zwischen Frames untersucht, um lokale Selbst-Attention an jeder räumlichen Position zu schätzen. Technisch reformuliert SIFA das deformierbare Design durch die Neuskalierung der Versatzvorhersagen mittels des Unterschieds zwischen zwei aufeinanderfolgenden Frames. Jeder räumliche Ort im aktuellen Frame dient dabei als Query, während die lokal deformierbaren Nachbarn im nächsten Frame als Keys/Values betrachtet werden. Anschließend misst SIFA die Ähnlichkeit zwischen Query und Keys als eigenständige Attention, um die Werte für die zeitliche Aggregation gewichtet zu mitteln. Wir integrieren den SIFA-Block anschließend jeweils in ConvNets und Vision Transformers, um SIFA-Net und SIFA-Transformer zu entwickeln. Umfangreiche Experimente an vier Video-Datensätzen belegen die Überlegenheit von SIFA-Net und SIFA-Transformer als stärkere Grundarchitekturen. Besonders hervorzuheben ist, dass SIFA-Transformer eine Genauigkeit von 83,1 % auf dem Kinetics-400-Datensatz erreicht. Der Quellcode ist unter \url{https://github.com/FuchenUSTC/SIFA} verfügbar.