HyperAIHyperAI

Command Palette

Search for a command to run...

Motion-getriebenes visuelles Tempo-Lernen für die Video-basierte Aktenerkennung

Yuanzhong Liu Junsong Yuan Zhigang Tu

Zusammenfassung

Das visuelle Tempo charakterisiert die Dynamik und die zeitliche Skala einer Handlung und ist hilfreich, um menschliche Aktionen zu unterscheiden, die in visueller Dynamik und Erscheinungsbild stark相似 sind. Frühere Methoden erfassen das visuelle Tempo entweder durch mehrfaches Abtasten von Rohvideos mit unterschiedlichen Sampling-Raten, was einen kostspieligen mehrschichtigen Netzwerkansatz erfordert, um jede Rate zu verarbeiten, oder durch hierarchisches Abtasten von Backbone-Features, das stark auf hochwertige Merkmale angewiesen ist und feinkörnige zeitliche Dynamiken verpasst. In dieser Arbeit schlagen wir einen Temporal Correlation Module (TCM) vor, der problemlos in bestehende Aktionserkennungs-Backbones als Plug-and-Play-Komponente integriert werden kann, um das visuelle Tempo aus niedrigstufigen Backbone-Features auf einer einzigen Schicht effizient zu extrahieren. Konkret besteht unser TCM aus zwei Hauptkomponenten: einem Multi-scale Temporal Dynamics Module (MTDM) und einem Temporal Attention Module (TAM). Das MTDM wendet eine Korrelationsoperation an, um pixelweise feinkörnige zeitliche Dynamiken sowohl für schnelle als auch für langsame Tempi zu lernen. Das TAM betont adaptiv aussagekräftige Merkmale und unterdrückt unwesentliche durch die Analyse der globalen Information über verschiedene Tempi hinweg. Umfassende Experimente an mehreren Benchmarks für Aktionserkennung, wie Something-Something V1 & V2, Kinetics-400, UCF-101 und HMDB-51, haben gezeigt, dass der vorgeschlagene TCM die Leistung bestehender videobasierter Aktionserkennungsmodelle erheblich verbessert. Der Quellcode ist öffentlich unter https://github.com/yzfly/TCM verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Motion-getriebenes visuelles Tempo-Lernen für die Video-basierte Aktenerkennung | Paper | HyperAI