Action Unit Memory Network für die schwach überwachte zeitliche Aktionslokalisierung

Schwach beschriftete zeitliche Aktionslokalisierung zielt darauf ab, Aktionen in ungeschnittenen Videos zu detektieren und zu lokalisieren, wobei während des Trainings lediglich Video-Level-Labels zur Verfügung stehen. Da jedoch keine Frame-Level-Anmerkungen vorliegen, ist es herausfordernd, eine vollständige Lokalisierung zu erreichen und Hintergrundstörungen zu reduzieren. In diesem Artikel stellen wir ein Action Unit Memory Network (AUMN) für die schwach beschriftete zeitliche Aktionslokalisierung vor, das diese beiden Herausforderungen durch das Lernen einer Aktionseinheitsspeicherbank mildern kann. Im vorgeschlagenen AUMN werden zwei Aufmerksamkeitsmodule entworfen, um die Speicherbank adaptiv zu aktualisieren und spezifische Klassifizierer für Aktionseinheiten zu lernen. Darüber hinaus werden drei effektive Mechanismen (Diversität, Homogenität und Sparsamkeit) eingeführt, um die Aktualisierung des Speichernetzwerks zu leiten. So weit uns bekannt ist, ist dies die erste Arbeit, die Aktionseinheiten explizit mit einem Speichernetzwerk modelliert. Umfangreiche experimentelle Ergebnisse auf zwei Standardbenchmarks (THUMOS14 und ActivityNet) zeigen, dass unser AUMN gegenüber aktuellen State-of-the-Art-Methoden besticht. Insbesondere wird die durchschnittliche mAP bei IoU-Schwellenwerten von 0,1 bis 0,5 auf dem THUMOS14-Datensatz von 47,0 % auf 52,1 % signifikant verbessert.