HyperAIHyperAI

Command Palette

Search for a command to run...

MVFNet: Multi-View Fusion Network für effiziente Videoerkennung

Wenhao Wu Dongliang He Tianwei Lin Fu Li Chuang Gan Errui Ding

Zusammenfassung

Konventionell sind die spatiotemporale Modellierung und ihre Komplexität die beiden zentralen Forschungsthemen im Bereich der Video-Action-Erkennung. Bestehende State-of-the-Art-Methoden erreichen zwar hervorragende Genauigkeit, unabhängig von der Komplexität, während effiziente Lösungen zur spatiotemporalen Modellierung hingegen in der Leistung leicht hinterherhinken. In diesem Paper versuchen wir, Effizienz und Effektivität gleichzeitig zu erzielen. Zunächst betrachten wir neben der traditionellen Sichtweise, bei der die H × W × T Video-Frames als raumzeitliches Signal (aus der Perspektive der Höhe-Breite-Ebene) behandelt werden, zusätzlich auch die beiden anderen Ebenen – Höhe-Zeit und Breite-Zeit –, um die Dynamik von Videos umfassend zu erfassen. Zweitens basiert unser Modell auf 2D-CNN-Backbones, wobei die Modellkomplexität bereits im Design sorgfältig berücksichtigt wurde. Insbesondere führen wir einen neuartigen Multi-View-Fusion-(MVF)-Modul ein, der separable Faltungen zur Effizienzsteigerung nutzt, um Video-Dynamik auszunutzen. Dieser Modul ist plug-and-play und kann problemlos in bestehende 2D-CNNs integriert werden, um ein einfaches, aber leistungsfähiges Modell namens MVFNet zu bilden. Darüber hinaus kann MVFNet als generalisiertes Video-Modellierungs-Framework betrachtet werden und sich je nach Einstellung an bestehende Methoden wie C2D, SlowOnly und TSM anpassen. Um die Überlegenheit zu belegen, wurden umfangreiche Experimente auf etablierten Benchmarks (nämlich Something-Something V1 & V2, Kinetics, UCF-101 und HMDB-51) durchgeführt. Das vorgeschlagene MVFNet erreicht dabei State-of-the-Art-Leistung bei Komplexität von 2D-CNNs.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp