Schwach beschriftete zeitliche Aktionslokalisierung mit actionness-gesteuerter Unterdrückung von falsch positiven Ergebnissen
Die schwach beschriftete zeitliche Handlungslokalisierung zielt darauf ab, die zeitlichen Grenzen von Handlungsinstanzen in ungeschnittenen Videos mithilfe von videobezogenen Etiketten zu lokalisieren und ihnen die entsprechende Handlungskategorie zuzuweisen. Üblicherweise wird dieses Problem durch einen Ansatz namens „Localization-by-Classification“ gelöst, bei dem Handlungsinstanzen durch die Klassifizierung von Videoclips identifiziert werden. Da dieser Ansatz jedoch die videobasierte Klassifikationsaufgabe optimiert, leiden die generierten Aktivitätssequenzen häufig unter Störungen durch klassenbezogene Szenen, was zu einer hohen Anzahl von Falschpositiven in den Vorhersagen führt. Viele bestehende Arbeiten behandeln den Hintergrund als eigenständige Kategorie und zwingen das Modell, Hintergrund-Clips zu unterscheiden. Unter schwach beschrifteten Bedingungen ist die Hintergrundinformation jedoch unscharf und unbestimmt, wodurch diese Methode äußerst schwierig wird. Um den Einfluss von Falschpositiven zu verringern, schlagen wir einen neuen, handlungsbezogenen Falschpositivunterdrückungsansatz vor. Unser Verfahren zielt darauf ab, Falschpositive Hintergründe zu unterdrücken, ohne die Hintergrundkategorie einzuführen. Zunächst stellen wir einen selbsttrainierenden Handlungsbranch vor, der klassenunabhängige Handlungsstärke lernt und dadurch die Störung durch klassenbezogene Szeneninformationen minimiert, indem die Videoetiketten ignoriert werden. Anschließend führen wir ein Modul zur Falschpositivunterdrückung ein, das Falschpositiv-Clips identifiziert und unterdrückt. Schließlich integrieren wir ein Modul zur Vordergrundverstärkung, das das Modell mithilfe eines Aufmerksamkeitsmechanismus und klassenunabhängiger Handlungsstärke anleitet, den Vordergrund besser zu lernen. Wir führen umfangreiche Experimente auf drei Benchmarks (THUMOS14, ActivityNet1.2 und ActivityNet1.3) durch. Die Ergebnisse belegen die Wirksamkeit unseres Ansatzes zur Unterdrückung von Falschpositiven und zeigen, dass er die derzeit beste Leistung erzielt. Code: https://github.com/lizhilin-ustc/AFPS.