ActionVLAD: Lernen der räumlich-zeitlichen Aggregation für die Aktionserkennung

In dieser Arbeit stellen wir eine neue Video-Darstellung für die Aktionserkennung vor, die lokale Faltungsfunktionen über den gesamten räumlich-zeitlichen Umfang des Videos aggregiert. Dies erreichen wir durch die Integration von state-of-the-art Zweistrom-Netzwerken mit lernfähiger räumlich-zeitlicher Merkmalsaggregation. Die resultierende Architektur ist end-to-end trainierbar für die Klassifizierung ganzer Videos. Wir untersuchen verschiedene Strategien zur Pooling über Raum und Zeit sowie zur Kombination der Signale aus den verschiedenen Strömen. Wir finden heraus, dass: (i) es wichtig ist, sowohl räumlich als auch zeitlich gemeinsam zu poolen, aber (ii) Erscheinungsform- und Bewegungsströme in getrennte Darstellungen aggregiert werden sollten. Schließlich zeigen wir, dass unsere Darstellung die Zweistrom-Basisarchitektur um einen großen relativen Marginalwert (13%) übertrifft und zudem andere Baseline-Methoden mit vergleichbaren Basisarchitekturen auf den Video-Klassifikations-Benchmarks HMDB51, UCF101 und Charades übertreffen kann.