Multi-Scale Motion-Aware-Modul für die Video-Action-Erkennung
Aufgrund der langen Berechnungszeiten für optischen Fluss haben jüngere Arbeiten vorgeschlagen, die Korrelationsoperation als Alternative zur Extraktion von Bewegungsmerkmalen zu nutzen. Obwohl die Verwendung von Korrelationsoperationen eine signifikante Leistungssteigerung bei vernachlässigbaren FLOPs (Floating-Point Operations) ermöglicht, führt sie im Vergleich zu Faltungsoperationen zu einer deutlich höheren Latenz pro FLOP und erhöht die Gesamtlatenz erheblich, wenn größere Suchfelder eingesetzt werden. Dennoch ist eine Verkleinerung des Suchfelds bei Korrelationsoperationen letztendlich dazu verurteilt, die Leistung zu verschlechtern, da größere Verschiebungen nicht mehr erfasst werden können. In diesem Paper stellen wir ein effektives und latenzarmes Multi-Scale Motion-Aware (MSMA)-Modul vor. Es nutzt kleinere Suchfelder auf verschiedenen Skalen, um Bewegungsmerkmale effizient aus großen Verschiebungen zu extrahieren. Das Modul lässt sich problemlos in verschiedene CNN-Backbones integrieren und zeigt eine hervorragende Generalisierbarkeit. Bei der Integration in TSM ResNet-50 verursacht das MSMA-Modul auf einer NVIDIA Tesla V100 GPU eine zusätzliche Latenz von etwa 17,6 %, erreicht jedoch den Stand der Technik sowohl auf Something-Something V1 & V2 als auch auf Diving-48.