DMC-Net: Generierung diskriminativer Bewegungshinweise für schnelle komprimierte Videobewegungserkennung

Bewegung hat sich als nützlich für die Videoanalyse erwiesen, wobei Bewegung in der Regel durch optischen Fluss dargestellt wird. Die Berechnung des Flusses aus Videobildern ist jedoch sehr zeitaufwendig. Kürzliche Arbeiten nutzen direkt die Bewegungsvektoren und Residuen, die in komprimierten Videos verfügbar sind, um Bewegung ohne zusätzlichen Aufwand darzustellen. Obwohl dies die Flussberechnung vermeidet, beeinträchtigt es auch die Genauigkeit, da der Bewegungsvektor rauschig ist und eine erheblich reduzierte Auflösung aufweist, was ihn zu einer weniger diskriminierenden Bewegungsdarstellung macht. Um diese Probleme zu beheben, schlagen wir ein leichtgewichtiges Generator-Netzwerk vor, das Rauschen in den Bewegungsvektoren reduziert und feine Bewegungsdetails erfasst, um eine präzisere Diskriminative-Bewegungs-Hinweis-Darstellung (DMC) zu erreichen. Da optischer Fluss eine genaue Bewegungsdarstellung ist, trainieren wir den DMC-Generator, den Fluss durch einen Rekonstruktionsverlust und einen generativen adversären Verlust zu approximieren, wobei dieser Prozess parallel zur nachgelagerten Aktionklassifikationsaufgabe erfolgt. Ausführliche Evaluierungen an drei Aktionserkennungsbenchmarks (HMDB-51, UCF-101 und einem Teil von Kinetics) bestätigen die Effektivität unserer Methode. Unser vollständiges System, das aus dem Generator und dem Klassifizierer besteht, wird als DMC-Net bezeichnet. Es erreicht eine hohe Genauigkeit nahe an derjenigen der Verwendung von Flussdaten und läuft bei der Inferenz um zwei Größenordnungen schneller als bei der Verwendung des optischen Flusses.