Schwach beschriftete Aktionslokalisierung durch generatives Aufmerksamkeitsmodellieren

Die schwach beschriftete zeitliche Aktionslokalisierung ist ein Problem, bei dem ein Aktionslokalisierungsmodell nur mit videobasierter Aktionsbeschriftung trainiert wird. Der gängige Ansatz basiert weitgehend auf der Klassifikationsaktivierung, bei der ein Aufmerksamkeitsmodell eingesetzt wird, um aktionsrelevante Frames zu identifizieren und diese anschließend in verschiedene Klassen einzuteilen. Diese Methode führt jedoch zu dem Problem der Aktions-Kontext-Verwirrung: Kontext-Frame in der Nähe von Aktionsclips werden oft fälschlicherweise als Aktionsframes erkannt, da sie eng mit den spezifischen Klassen verbunden sind. Um dieses Problem zu lösen, schlagen wir in diesem Artikel vor, die klassenunabhängige frameweise Wahrscheinlichkeit bedingt auf die Frame-Aufmerksamkeit mittels eines bedingten Variationalen Auto-Encoders (VAE) zu modellieren. Ausgehend von der Beobachtung, dass sich Kontext und Aktionsinformationen auf der Repräsentationsebene deutlich unterscheiden, wird ein probabilistisches Modell – nämlich ein bedingter VAE – gelernt, um die Wahrscheinlichkeit jedes Frames unter Berücksichtigung der Aufmerksamkeit zu modellieren. Durch Maximierung der bedingten Wahrscheinlichkeit bezüglich der Aufmerksamkeit werden Aktions- und Nicht-Aktions-Frame gut voneinander getrennt. Experimente auf THUMOS14 und ActivityNet1.2 belegen die Überlegenheit unseres Ansatzes und seine Wirksamkeit bei der Bewältigung des Problems der Aktions-Kontext-Verwirrung. Der Quellcode ist nun auf GitHub verfügbar.