Adaptive Mutual Supervision für weakly-supervised Temporale Aktionslokalisierung

Die schwach beschriftete zeitliche Aktionslokalisierung zielt darauf ab, Aktivitäten in ungeschnittenen Videos lokalisiert zu bekommen, wobei lediglich videobasierte Aktionskategorielabels zur Verfügung stehen. Die meisten bisherigen Ansätze ignorieren das Problem der Unvollständigkeit der Klassen-Aktivierungs-Sequenzen (Class Activation Sequences, CAS), was zu triviale Lokalisierungsergebnisse führt. Um dieses Problem zu lösen, stellen wir einen adaptiven gegenseitigen Supervisionsrahmen (Adaptive Mutual Supervision, AMS) mit zwei Zweigen vor. Der Basiszweig nutzt die CAS, um die diskriminativsten Aktionsregionen zu lokalisieren, während der ergänzende Zweig weniger diskriminative Aktionsregionen durch einen neuartigen adaptiven Sampler lokalisiert. Der adaptive Sampler aktualisiert dynamisch die Eingabe des ergänzenden Zweigs mittels einer Sampling-Gewichtssequenz, die negativ korreliert mit den CAS des Basiszweigs ist, wodurch der ergänzende Zweig gezwungen wird, jene Aktionsregionen zu lokalisieren, die vom Basiszweig unterschätzt werden. Um eine gegenseitige Verbesserung beider Zweige zu fördern, konstruieren wir gegenseitige Lokalisierungssupervision: Jeder Zweig nutzt Lokalisierungspseudolabels, die vom anderen Zweig generiert wurden, als Lokalisierungssupervision. Durch alternierendes Optimieren der beiden Zweige über mehrere Iterationen gelingt es schrittweise, die Aktionsregionen zu vervollständigen. Umfangreiche Experimente auf THUMOS14 und ActivityNet1.2 zeigen, dass die vorgeschlagene AMS-Methode die bisherigen State-of-the-Art-Verfahren deutlich übertrifft.