UniFormer: Unified Transformer für die effiziente räumlich-zeitliche Repräsentationslernung

Es stellt eine herausfordernde Aufgabe dar, reichhaltige und mehrskalige räumlich-zeitliche Semantik aus hochdimensionalen Videos zu lernen, bedingt durch große lokale Redundanz und komplexe globale Abhängigkeiten zwischen Videoframes. Die jüngsten Fortschritte auf diesem Forschungsfeld wurden hauptsächlich durch 3D-Faltungsneuronale Netze und Vision-Transformer getrieben. Obwohl 3D-Faltungen die effiziente Aggregation lokaler Kontextinformationen aus einer kleinen 3D-Nachbarschaft ermöglichen und so lokale Redundanz reduzieren, fehlt ihnen die Fähigkeit, globale Abhängigkeiten zu erfassen, aufgrund des begrenzten Empfindungsfelds. Alternativ können Vision-Transformer durch den Selbst-Attention-Mechanismus langreichweitige Abhängigkeiten effektiv erfassen, sind jedoch eingeschränkt in der Reduktion lokaler Redundanz, da sie eine blinden Ähnlichkeitsvergleich aller Tokens in jeder Schicht durchführen. Ausgehend von diesen Beobachtungen stellen wir einen neuartigen Unified transFormer (UniFormer) vor, der die Vorteile von 3D-Faltungen und räumlich-zeitlicher Selbst-Attention in einer kompakten Transformer-Architektur nahtlos integriert und ein bevorzugtes Gleichgewicht zwischen Berechnungsaufwand und Genauigkeit erreicht. Im Gegensatz zu traditionellen Transformers kann unser Relation-Aggregator sowohl räumlich-zeitliche Redundanz als auch Abhängigkeiten effektiv bewältigen, indem er in flachen Schichten lokale und in tiefen Schichten globale Token-Ähnlichkeit lernend erfasst. Wir führen umfangreiche Experimente auf etablierten Video-Benchmarks durch, darunter Kinetics-400, Kinetics-600 sowie Something-Something V1 und V2. Mit lediglich einer Pre-Training-Phase auf ImageNet-1K erreicht unser UniFormer eine Top-1-Accuracy von 82,9 %/84,8 % auf Kinetics-400/Kinetics-600, wobei lediglich ein Zehntel der GFLOPs anderer state-of-the-art-Methoden benötigt werden. Für Something-Something V1 und V2 erzielt unser UniFormer neue state-of-the-art-Ergebnisse mit jeweils 60,8 % und 71,4 % Top-1-Accuracy.