Marginalisierte Durchschnittliche Aufmerksamkeitsnetzwerk für schwach überwachtes Lernen

Im Bereich der schwach überwachten zeitlichen Aktionserkennung haben bisherige Arbeiten aufgrund der Überschätzung der auffälligsten Regionen versagt, dichte und zusammenhängende Regionen für jede gesamte Aktion zu lokalisieren. Um dieses Problem zu lindern, schlagen wir ein marginalisiertes durchschnittliches Aufmerksamkeitsnetzwerk (MAAN) vor, das die dominante Reaktion der auffälligsten Regionen auf principielle Weise unterdrückt. Das MAAN verwendet ein neuartiges Modul zur marginalisierten durchschnittlichen Aggregation (MAA) und lernt eine Reihe latenter diskriminativer Wahrscheinlichkeiten in einem end-to-end-Prozess. Die MAA erstellt mehrere Teilmengen aus den Video-Segment-Features gemäß einer Reihe latenter diskriminativer Wahrscheinlichkeiten und berechnet den Erwartungswert aller durchschnittlichen Teilmengen-Features. Theoretisch beweisen wir, dass das MAA-Modul mit gelernten latenten diskriminativen Wahrscheinlichkeiten erfolgreich die Unterschiede in den Reaktionen zwischen den auffälligsten Regionen und den anderen reduziert. Daher ist das MAAN in der Lage, bessere Klassenaktivierungssequenzen zu generieren und dichte sowie zusammenhängende Aktionen in Videos zu identifizieren. Darüber hinaus schlagen wir einen schnellen Algorithmus vor, um die Komplexität des Aufbaus von MAA von O($2^T$) auf O($T^2$) zu reduzieren. Ausführliche Experimente auf zwei großen Video-Datensätzen zeigen, dass unser MAAN bei der schwach überwachten zeitlichen Aktionserkennung überlegene Leistungen erzielt.