Cross-modal Consensus Network für weakly supervised Temporal Action Localization

Schwach beschriftete zeitliche Aktionslokalisierung (WS-TAL) ist eine anspruchsvolle Aufgabe, die darauf abzielt, Aktionsinstanzen in einem gegebenen Video unter Verwendung von Video-level-Kategorisierungssupervision zu lokalisieren. In früheren Arbeiten werden sowohl visuelle als auch Bewegungsmerkmale verwendet, jedoch werden diese nicht angemessen genutzt, sondern lediglich durch einfache Verkettung oder Score-Level-Fusion kombiniert. In dieser Arbeit argumentieren wir, dass die aus vortrainierten Extraktoren, beispielsweise I3D, extrahierten Merkmale keine auf die WS-TAL-Aufgabe spezifischen Merkmale sind, weshalb eine Neukalibrierung der Merkmale erforderlich ist, um die Redundanz an aufgabenunrelevanten Informationen zu verringern. Daher schlagen wir ein cross-modales Konsensnetzwerk (CO²-Net) vor, um dieses Problem anzugehen. Im CO²-Netzwerk führen wir hauptsächlich zwei identische, neu vorgeschlagene cross-modale Konsensmodule (CCM) ein, die eine cross-modale Aufmerksamkeitsmechanik entwerfen, um die aufgabenunrelevante Informationsredundanz mithilfe der globalen Information aus der Hauptmodality und der cross-modalen lokalen Information der Hilfsmodality zu filtern. Zudem betrachten wir die Aufmerksamkeitsgewichte, die aus jedem CCM abgeleitet werden, als Pseudoziele der Aufmerksamkeitsgewichte des anderen CCM, um die Konsistenz der Vorhersagen beider CCMs zu gewährleisten und somit einen gegenseitigen Lernmechanismus zu etablieren. Schließlich führen wir umfangreiche Experimente auf zwei häufig verwendeten Datensätzen für zeitliche Aktionslokalisierung, THUMOS14 und ActivityNet1.2, durch, um unsere Methode zu validieren und erreichen dabei Ergebnisse auf dem Stand der Technik. Die experimentellen Ergebnisse zeigen, dass unser vorgeschlagenes cross-modales Konsensmodul repräsentativere Merkmale für die zeitliche Aktionslokalisierung generieren kann.