vor 17 Tagen

MVFNet: Multi-View Fusion Network für effiziente Videoerkennung

Wenhao Wu, Dongliang He, Tianwei Lin, Fu Li, Chuang Gan, Errui Ding

Abstract

Konventionell sind die spatiotemporale Modellierung und ihre Komplexität die beiden zentralen Forschungsthemen im Bereich der Video-Action-Erkennung. Bestehende State-of-the-Art-Methoden erreichen zwar hervorragende Genauigkeit, unabhängig von der Komplexität, während effiziente Lösungen zur spatiotemporalen Modellierung hingegen in der Leistung leicht hinterherhinken. In diesem Paper versuchen wir, Effizienz und Effektivität gleichzeitig zu erzielen. Zunächst betrachten wir neben der traditionellen Sichtweise, bei der die H × W × T Video-Frames als raumzeitliches Signal (aus der Perspektive der Höhe-Breite-Ebene) behandelt werden, zusätzlich auch die beiden anderen Ebenen – Höhe-Zeit und Breite-Zeit –, um die Dynamik von Videos umfassend zu erfassen. Zweitens basiert unser Modell auf 2D-CNN-Backbones, wobei die Modellkomplexität bereits im Design sorgfältig berücksichtigt wurde. Insbesondere führen wir einen neuartigen Multi-View-Fusion-(MVF)-Modul ein, der separable Faltungen zur Effizienzsteigerung nutzt, um Video-Dynamik auszunutzen. Dieser Modul ist plug-and-play und kann problemlos in bestehende 2D-CNNs integriert werden, um ein einfaches, aber leistungsfähiges Modell namens MVFNet zu bilden. Darüber hinaus kann MVFNet als generalisiertes Video-Modellierungs-Framework betrachtet werden und sich je nach Einstellung an bestehende Methoden wie C2D, SlowOnly und TSM anpassen. Um die Überlegenheit zu belegen, wurden umfangreiche Experimente auf etablierten Benchmarks (nämlich Something-Something V1 & V2, Kinetics, UCF-101 und HMDB-51) durchgeführt. Das vorgeschlagene MVFNet erreicht dabei State-of-the-Art-Leistung bei Komplexität von 2D-CNNs.