HyperAIHyperAI

Command Palette

Search for a command to run...

D2-Net: Schwach beschriftete Aktionslokalisierung mittels diskriminativer Embeddings und entrauschte Aktivierungen

Sanath Narayan Hisham Cholakkal Munawar Hayat Fahad Shahbaz Khan Ming-Hsuan Yang Ling Shao

Zusammenfassung

Diese Arbeit stellt einen schwach überwachten Rahmen für die zeitliche Aktionslokalisierung vor, namens D2-Net, der darauf abzielt, Aktionen unter Verwendung von Video-Level-Supervision zeitlich zu lokalisieren. Unser Hauptbeitrag liegt in der Einführung einer neuen Verlustformulierung, die gleichzeitig die Unterscheidbarkeit der latenten Embeddings und die Robustheit der zeitlichen Klassenaktivierungen gegenüber Hintergrund-Vordergrund-Rauschen, das durch die schwache Supervision verursacht wird, verbessert. Die vorgeschlagene Formulierung besteht aus einem diskriminativen und einem Rauschunterdrückungsverlustterm zur Verbesserung der zeitlichen Aktionslokalisierung. Der diskriminative Term kombiniert eine Klassifikationsverlustfunktion mit einem top-down Aufmerksamkeitsmechanismus, um die Trennbarkeit der latenten Vordergrund-Hintergrund-Embeddings zu erhöhen. Der Rauschunterdrückungsverlustterm adressiert explizit das Hintergrund-Vordergrund-Rauschen in den Klassenaktivierungen, indem er gleichzeitig die intra-video- und inter-video-Mutual-Information maximiert, wobei ein bottom-up Aufmerksamkeitsmechanismus eingesetzt wird. Dadurch werden Aktivierungen in den Vordergrundregionen verstärkt und jene in den Hintergrundregionen unterdrückt, was zu robusteren Vorhersagen führt. Umfassende Experimente wurden auf mehreren Benchmarks durchgeführt, darunter THUMOS14 und ActivityNet1.2. Unser D2-Net erzielt gegenüber bestehenden Methoden auf allen Datensätzen überzeugende Ergebnisse und erreicht Verbesserungen von bis zu 2,3 % bezüglich des mAP bei IoU=0,5 auf THUMOS14. Der Quellcode ist unter https://github.com/naraysa/D2-Net verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
D2-Net: Schwach beschriftete Aktionslokalisierung mittels diskriminativer Embeddings und entrauschte Aktivierungen | Paper | HyperAI