HyperAIHyperAI

Command Palette

Search for a command to run...

ActionVLAD: Lernen der raumzeitlichen Aggregation für die Aktionsklassifikation

Girdhar Rohit Ramanan Deva Gupta Abhinav Sivic Josef Russell Bryan

Zusammenfassung

In dieser Arbeit stellen wir eine neue Video-Repräsentation für die Aktionsklassifikation vor, die lokale konvolutionale Merkmale über den gesamten räumlich-zeitlichen Umfang des Videos aggregiert. Dazu integrieren wir state-of-the-art-Zweistrom-Netzwerke mit lernbaren räumlich-zeitlichen Merkmalsaggregationen. Die resultierende Architektur ist für die Klassifikation ganzer Videos end-to-end trainierbar. Wir untersuchen verschiedene Strategien zur Pooling-Operation über Raum und Zeit sowie zur Kombination der Signale aus den verschiedenen Strömen. Wir stellen fest, dass: (i) eine gemeinsame Pooling-Operation über Raum und Zeit wichtig ist, aber (ii) die Erscheinungs- und Bewegungsströme am besten jeweils in eigenen, getrennten Repräsentationen aggregiert werden. Schließlich zeigen wir, dass unsere Repräsentation die Basisarchitektur mit zwei Strömen erheblich übertrifft (13 % relative Verbesserung) sowie andere Baseline-Modelle mit vergleichbaren Architekturen auf den Benchmarks HMDB51, UCF101 und Charades für die Video-Klassifikation.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp