Temporal Structure Mining for Weakly Supervised Action Detection

Im Gegensatz zum vollständig überwachten Aktionsdetektionsproblem, das auf kostspielige annotierte Frame-level-Informationen angewiesen ist, benötigt die schwach überwachte Aktionsdetektion (WSAD) lediglich Video-level-Anmerkungen, was sie für reale Anwendungen praktikabler macht. Bestehende WSAD-Methoden detektieren Aktionsinstanzen, indem sie jeden Videoabschnitt (eine Folge von Frames) einzeln bewerten. Die meisten dieser Ansätze können jedoch die zeitlichen Beziehungen zwischen Videoabschnitten nicht angemessen modellieren und charakterisieren daher Aktionsinstanzen mit verborgener zeitlicher Struktur nicht effektiv. Um dieses Problem in der WSAD zu verringern, schlagen wir die Methode des temporalen Struktur-Mining (TSM) vor. In TSM wird jede Aktionsinstanz als ein mehrphasiger Prozess modelliert, wobei die Phasenentwicklung innerhalb einer Aktionsinstanz – also die zeitliche Struktur – explizit ausgenutzt wird. Gleichzeitig wird der Videohintergrund durch eine Hintergrundphase modelliert, die verschiedene Aktionsinstanzen in einem ungeschnittenen Video voneinander trennt. In diesem Rahmen werden Phasenfilter eingesetzt, um die Vertrauenswerte für das Vorhandensein der Phasen einer Aktionsinstanz in jedem Segment zu berechnen. Da im WSAD-Task keine Frame-level-Anmerkungen zur Verfügung stehen, können die Phasenfilter nicht direkt trainiert werden. Um diese Herausforderung zu bewältigen, betrachten wir die Phase jedes Segments als eine verborgene Variable. Wir nutzen die Vertrauenswerte der Segmente aus jedem Phasenfilter, um eine Tabelle zu konstruieren, und bestimmen die verborgenen Variablen – also die Phasen der Segmente – durch die Suche nach einem maximalen zirkulären Pfad entlang dieser Tabelle. Experimente an drei etablierten Benchmark-Datensätzen belegen die führende Leistungsfähigkeit des vorgeschlagenen TSM-Ansatzes.