HyperAIHyperAI
vor 2 Monaten

D3D: Destillierte 3D-Netzwerke für die Aktionserkennung in Videos

Jonathan C. Stroud; David A. Ross; Chen Sun; Jia Deng; Rahul Sukthankar
D3D: Destillierte 3D-Netzwerke für die Aktionserkennung in Videos
Abstract

Zustandsderkunst-Methoden für die Aktionserkennung in Videos verwenden häufig eine Kombination aus zwei Netzwerken: dem räumlichen Strom, der RGB-Bilder als Eingabe verwendet, und dem zeitlichen Strom, der optischen Fluss als Eingabe verwendet. In neueren Arbeiten bestehen beide Ströme aus 3D-Faltungsneuralnetzen (Convolutional Neural Networks), die räumlich-zeitliche Filter auf den Videoclip anwenden, bevor die Klassifizierung durchgeführt wird. Konzeptuell sollten die zeitlichen Filter es dem räumlichen Strom ermöglichen, Bewegungsrepräsentationen zu lernen, was den zeitlichen Strom überflüssig machen würde. Dennoch beobachten wir erhebliche Vorteile in der Aktionserkennungsleistung durch die Einbeziehung eines vollständig separaten zeitlichen Stroms, was darauf hinweist, dass der räumliche Strom einige Signale verpasst, die vom zeitlichen Strom erfasst werden. In dieser Arbeit untersuchen wir zunächst, ob Bewegungsrepräsentationen tatsächlich im räumlichen Strom von 3D-CNNs fehlen. Zweitens zeigen wir, dass diese Bewegungsrepräsentationen durch Destillation verbessert werden können, indem der räumliche Strom so angepasst wird, dass er die Ausgaben des zeitlichen Stroms vorhersagt. Dadurch werden beide Modelle effektiv in einen einzelnen Strom kombiniert. Schließlich demonstrieren wir, dass unser destilliertes 3D-Netzwerk (Distilled 3D Network, D3D) eine Leistung erreicht, die mit den Ansätzen zweier Ströme vergleichbar ist, wobei nur ein einzelnes Modell verwendet wird und ohne Notwendigkeit zur Berechnung des optischen Flusses.