Schwach überwachte Aktionserkennung durch spärliches zeitliches Pooling-Netzwerk

Wir schlagen einen schwach überwachten Algorithmus für die zeitliche Lokalisierung von Aktionen in ungeschnittenen Videos unter Verwendung von Faltungsneuronalen Netzen (Convolutional Neural Networks) vor. Unser Algorithmus lernt aus Klassifikationslabels auf Videoebene und prognostiziert zeitliche Intervalle menschlicher Aktionen ohne die Notwendigkeit von Annotierungen zur zeitlichen Lokalisierung. Wir gestalten unser Netzwerk so, dass es mithilfe eines Aufmerksamkeitsmoduls eine dünnbesetzte Teilmenge von Schlüsselsegmenten, die mit den Zielaktionen im Video assoziiert sind, identifiziert und diese Schlüsselsegmente durch adaptives zeitliches Pooling zusammenführt. Unsere Kostenfunktion besteht aus zwei Termen, die den Klassifikationsfehler auf Videoebene minimieren und die Dünnbesetzung der Segmentauswahl erzwingen. Bei der Inferenz extrahieren wir temporale Vorschläge unter Verwendung von temporalen Klassenaktivierungen und klassifikationsoffenem Aufmerksamkeit, um die Zeitintervalle zu schätzen, die den Zielaktionen entsprechen. Der vorgeschlagene Algorithmus erzielt Stand-of-the-Art-Ergebnisse im THUMOS14-Datensatz und herausragende Leistungen im ActivityNet1.3-Datensatz, selbst bei schwacher Überwachung.