Command Palette
Search for a command to run...
ActionVLAD: Lernen der raumzeitlichen Aggregation für die Aktionsklassifikation
ActionVLAD: Lernen der raumzeitlichen Aggregation für die Aktionsklassifikation
Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan
Zusammenfassung
In dieser Arbeit stellen wir eine neue Video-Repräsentation für die Aktionsklassifikation vor, die lokale konvolutionale Merkmale über den gesamten räumlich-zeitlichen Umfang des Videos aggregiert. Dazu integrieren wir state-of-the-art-Zweistrom-Netzwerke mit lernbaren räumlich-zeitlichen Merkmalsaggregationen. Die resultierende Architektur ist für die Klassifikation ganzer Videos end-to-end trainierbar. Wir untersuchen verschiedene Strategien zur Pooling-Operation über Raum und Zeit sowie zur Kombination der Signale aus den verschiedenen Strömen. Wir stellen fest, dass: (i) eine gemeinsame Pooling-Operation über Raum und Zeit wichtig ist, aber (ii) die Erscheinungs- und Bewegungsströme am besten jeweils in eigenen, getrennten Repräsentationen aggregiert werden. Schließlich zeigen wir, dass unsere Repräsentation die Basisarchitektur mit zwei Strömen erheblich übertrifft (13 % relative Verbesserung) sowie andere Baseline-Modelle mit vergleichbaren Architekturen auf den Benchmarks HMDB51, UCF101 und Charades für die Video-Klassifikation.