HyperAIHyperAI
vor 16 Tagen

D2-Net: Schwach beschriftete Aktionslokalisierung mittels diskriminativer Embeddings und entrauschte Aktivierungen

Sanath Narayan, Hisham Cholakkal, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, Ling Shao
D2-Net: Schwach beschriftete Aktionslokalisierung mittels diskriminativer Embeddings und entrauschte Aktivierungen
Abstract

Diese Arbeit stellt einen schwach überwachten Rahmen für die zeitliche Aktionslokalisierung vor, namens D2-Net, der darauf abzielt, Aktionen unter Verwendung von Video-Level-Supervision zeitlich zu lokalisieren. Unser Hauptbeitrag liegt in der Einführung einer neuen Verlustformulierung, die gleichzeitig die Unterscheidbarkeit der latenten Embeddings und die Robustheit der zeitlichen Klassenaktivierungen gegenüber Hintergrund-Vordergrund-Rauschen, das durch die schwache Supervision verursacht wird, verbessert. Die vorgeschlagene Formulierung besteht aus einem diskriminativen und einem Rauschunterdrückungsverlustterm zur Verbesserung der zeitlichen Aktionslokalisierung. Der diskriminative Term kombiniert eine Klassifikationsverlustfunktion mit einem top-down Aufmerksamkeitsmechanismus, um die Trennbarkeit der latenten Vordergrund-Hintergrund-Embeddings zu erhöhen. Der Rauschunterdrückungsverlustterm adressiert explizit das Hintergrund-Vordergrund-Rauschen in den Klassenaktivierungen, indem er gleichzeitig die intra-video- und inter-video-Mutual-Information maximiert, wobei ein bottom-up Aufmerksamkeitsmechanismus eingesetzt wird. Dadurch werden Aktivierungen in den Vordergrundregionen verstärkt und jene in den Hintergrundregionen unterdrückt, was zu robusteren Vorhersagen führt. Umfassende Experimente wurden auf mehreren Benchmarks durchgeführt, darunter THUMOS14 und ActivityNet1.2. Unser D2-Net erzielt gegenüber bestehenden Methoden auf allen Datensätzen überzeugende Ergebnisse und erreicht Verbesserungen von bis zu 2,3 % bezüglich des mAP bei IoU=0,5 auf THUMOS14. Der Quellcode ist unter https://github.com/naraysa/D2-Net verfügbar.

D2-Net: Schwach beschriftete Aktionslokalisierung mittels diskriminativer Embeddings und entrauschte Aktivierungen | Neueste Forschungsarbeiten | HyperAI