HyperAIHyperAI
vor 17 Tagen

Komplettitätsmodellierung und Kontexttrennung für schwach überwachte zeitliche Aktionslokalisierung

{ Yizhou Wang, Tingting Jiang, Daochang Liu}
Komplettitätsmodellierung und Kontexttrennung für schwach überwachte zeitliche Aktionslokalisierung
Abstract

Die zeitliche Aktionslokalisierung ist entscheidend für das Verständnis von ungeschnittenen Videos. In dieser Arbeit identifizieren wir zunächst zwei bisher wenig untersuchte Probleme, die sich aus der schwachen Supervision für die zeitliche Aktionslokalisierung ergeben: die Modellierung der Aktionsvollständigkeit und die Trennung von Aktionsinhalten von deren Kontext. Anschließend behandeln wir diese beiden Probleme explizit durch die Einführung einer neuen Netzarchitektur und eines entsprechenden Trainingsstrategie. Konkret schlagen wir ein mehrfach verzweigtes neuronales Netzwerk vor, bei dem die einzelnen Zweige dazu verpflichtet werden, charakteristische Teile einer Aktion zu erkennen. Auf diese Weise können vollständige Aktionen durch die Fusion der Aktivierungen aus verschiedenen Zweigen lokalisiert werden. Um Aktionen von ihrer umgebenden Kontextinformation zu trennen, generieren wir während des Trainings sogenannte „hard negative“-Beispiele unter der Annahme, dass bewegungslose Videosequenzen unwahrscheinlich als Aktionen zu interpretieren sind. Experimente an den Datensätzen THUMOS'14 und ActivityNet zeigen, dass unser Ansatz state-of-the-art-Methoden übertrifft. Insbesondere wird die durchschnittliche mAP auf ActivityNet v1.2 signifikant von 18,0 % auf 22,4 % verbessert. Der Quellcode wird in Kürze veröffentlicht.