HyperAIHyperAI
vor 2 Monaten

DyFADet: Dynamische Merkmalsaggregation für die Erkennung zeitlicher Aktionen

Le Yang; Ziwei Zheng; Yizeng Han; Hao Cheng; Shiji Song; Gao Huang; Fan Li
DyFADet: Dynamische Merkmalsaggregation für die Erkennung zeitlicher Aktionen
Abstract

Kürzlich vorgeschlagene neuronale Netzwerk-basierte Modelle zur zeitlichen Aktionserkennung (Temporal Action Detection, TAD) sind grundsätzlich begrenzt in ihrer Fähigkeit, diskriminative Darstellungen und Aktionen mit unterschiedlicher Länge aus komplexen Szenen durch Detektionsköpfe mit geteilten Gewichten zu extrahieren und zu modellieren. Inspiriert von den Erfolgen dynamischer neuronalen Netze präsentieren wir in dieser Arbeit ein neuartiges Modul zur dynamischen Feature-Aggregation (Dynamic Feature Aggregation, DFA), das gleichzeitig die Kernelgewichte und die Rezeptivfelder an verschiedenen Zeitpunkten anpassen kann. Basierend auf DFA aggregiert der vorgeschlagene dynamische Encoder-Layer die zeitlichen Features innerhalb der Aktionszeitintervalle und gewährleistet die Diskriminierbarkeit der extrahierten Darstellungen. Zudem ermöglicht die Verwendung von DFA die Entwicklung eines dynamischen TAD-Kopfes (DyHead), der die mehrskaligen Features mit angepassten Parametern und gelernten Rezeptivfeldern besser aggregiert, um Aktionen mit unterschiedlichen Zeitintervallen in Videos zu erkennen. Mit dem vorgeschlagenen Encoder-Layer und DyHead erreicht das neue dynamische TAD-Modell, DyFADet, vielversprechende Ergebnisse bei einer Reihe anspruchsvoller TAD-Benchmarks, einschließlich HACS-Segment, THUMOS14, ActivityNet-1.3, Epic-Kitchen 100, Ego4D-Moment Queries V1.0 und FineAction. Der Quellcode wurde unter https://github.com/yangle15/DyFADet-pytorch veröffentlicht.

DyFADet: Dynamische Merkmalsaggregation für die Erkennung zeitlicher Aktionen | Neueste Forschungsarbeiten | HyperAI