HyperAIHyperAI
vor 17 Tagen

Motion-getriebenes visuelles Tempo-Lernen für die Video-basierte Aktenerkennung

Yuanzhong Liu, Junsong Yuan, Zhigang Tu
Motion-getriebenes visuelles Tempo-Lernen für die Video-basierte Aktenerkennung
Abstract

Das visuelle Tempo charakterisiert die Dynamik und die zeitliche Skala einer Handlung und ist hilfreich, um menschliche Aktionen zu unterscheiden, die in visueller Dynamik und Erscheinungsbild stark相似 sind. Frühere Methoden erfassen das visuelle Tempo entweder durch mehrfaches Abtasten von Rohvideos mit unterschiedlichen Sampling-Raten, was einen kostspieligen mehrschichtigen Netzwerkansatz erfordert, um jede Rate zu verarbeiten, oder durch hierarchisches Abtasten von Backbone-Features, das stark auf hochwertige Merkmale angewiesen ist und feinkörnige zeitliche Dynamiken verpasst. In dieser Arbeit schlagen wir einen Temporal Correlation Module (TCM) vor, der problemlos in bestehende Aktionserkennungs-Backbones als Plug-and-Play-Komponente integriert werden kann, um das visuelle Tempo aus niedrigstufigen Backbone-Features auf einer einzigen Schicht effizient zu extrahieren. Konkret besteht unser TCM aus zwei Hauptkomponenten: einem Multi-scale Temporal Dynamics Module (MTDM) und einem Temporal Attention Module (TAM). Das MTDM wendet eine Korrelationsoperation an, um pixelweise feinkörnige zeitliche Dynamiken sowohl für schnelle als auch für langsame Tempi zu lernen. Das TAM betont adaptiv aussagekräftige Merkmale und unterdrückt unwesentliche durch die Analyse der globalen Information über verschiedene Tempi hinweg. Umfassende Experimente an mehreren Benchmarks für Aktionserkennung, wie Something-Something V1 & V2, Kinetics-400, UCF-101 und HMDB-51, haben gezeigt, dass der vorgeschlagene TCM die Leistung bestehender videobasierter Aktionserkennungsmodelle erheblich verbessert. Der Quellcode ist öffentlich unter https://github.com/yzfly/TCM verfügbar.