Zwei-Stream-Konsensnetzwerk für schwach beschriftete zeitliche Aktionslokalisierung

Schwach beschriftete zeitliche Aktionslokalisierung (Weakly-supervised Temporal Action Localization, W-TAL) zielt darauf ab, alle Aktionsinstanzen in einem ungeschnittenen Video unter lediglich videolevel-Überwachung zu klassifizieren und zu lokalisieren. Da jedoch keine Frame-level-Anmerkungen zur Verfügung stehen, ist es für W-TAL-Methoden herausfordernd, falsch positive Aktionsvorschläge zu identifizieren und Vorschläge mit präzisen zeitlichen Grenzen zu generieren. In diesem Artikel präsentieren wir ein Two-Stream Consensus Network (TSCN), um diese Herausforderungen gleichzeitig anzugehen. Das vorgeschlagene TSCN verfügt über eine iterative Verbesserungstraining-Methode, bei der eine Frame-level-Pseudowahrheitsangabe iterativ aktualisiert und zur Bereitstellung von Frame-level-Überwachung für eine verbesserte Modelltrainierung sowie zur Eliminierung falsch positiver Aktionsvorschläge genutzt wird. Darüber hinaus schlagen wir eine neue Aufmerksamkeitsnormalisierungsverlustfunktion vor, die die vorhergesagte Aufmerksamkeit dazu anregt, sich wie eine binäre Auswahlverteilung zu verhalten, und somit die präzise Lokalisierung der zeitlichen Grenzen von Aktionsinstanzen fördert. Experimente auf den Datensätzen THUMOS14 und ActivityNet zeigen, dass das vorgeschlagene TSCN gegenwärtige State-of-the-Art-Methoden übertrifft und sogar vergleichbare Ergebnisse mit einigen jüngeren vollständig überwachten Methoden erzielt.