HyperAIHyperAI

Command Palette

Search for a command to run...

Multi-Scale Motion-Aware-Modul für die Video-Action-Erkennung

Yu-Chee Tseng Huai-Wei Peng

Zusammenfassung

Aufgrund der langen Berechnungszeiten für optischen Fluss haben jüngere Arbeiten vorgeschlagen, die Korrelationsoperation als Alternative zur Extraktion von Bewegungsmerkmalen zu nutzen. Obwohl die Verwendung von Korrelationsoperationen eine signifikante Leistungssteigerung bei vernachlässigbaren FLOPs (Floating-Point Operations) ermöglicht, führt sie im Vergleich zu Faltungsoperationen zu einer deutlich höheren Latenz pro FLOP und erhöht die Gesamtlatenz erheblich, wenn größere Suchfelder eingesetzt werden. Dennoch ist eine Verkleinerung des Suchfelds bei Korrelationsoperationen letztendlich dazu verurteilt, die Leistung zu verschlechtern, da größere Verschiebungen nicht mehr erfasst werden können. In diesem Paper stellen wir ein effektives und latenzarmes Multi-Scale Motion-Aware (MSMA)-Modul vor. Es nutzt kleinere Suchfelder auf verschiedenen Skalen, um Bewegungsmerkmale effizient aus großen Verschiebungen zu extrahieren. Das Modul lässt sich problemlos in verschiedene CNN-Backbones integrieren und zeigt eine hervorragende Generalisierbarkeit. Bei der Integration in TSM ResNet-50 verursacht das MSMA-Modul auf einer NVIDIA Tesla V100 GPU eine zusätzliche Latenz von etwa 17,6 %, erreicht jedoch den Stand der Technik sowohl auf Something-Something V1 & V2 als auch auf Diving-48.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp