Echtzeit-Aktionserkennung mit erweiterten Bewegungsvektor-CNNs

Die tiefe Two-Stream-Architektur zeigte ausgezeichnete Leistungen bei der Aktionserkennung auf Video-Basis. Der rechenaufwendigste Schritt in diesem Ansatz stammt aus der Berechnung des optischen Flusses, was es verhindert, in Echtzeit zu arbeiten. In dieser Arbeit wird diese Architektur beschleunigt, indem der optische Fluss durch den Bewegungsvektor ersetzt wird, der direkt aus komprimierten Videos ohne zusätzliche Berechnungen gewonnen werden kann. Allerdings fehlen dem Bewegungsvektor detaillierte Strukturen und er enthält rauschige und ungenaue Bewegungsmuster, was zu einer deutlichen Verschlechterung der Erkennungsleistung führt. Unser wesentlicher Einblick zur Linderung dieses Problems besteht darin, dass optischer Fluss und Bewegungsvektor inhärent korreliert sind. Das Wissen, das mit einem CNN für optischen Fluss gelernt wurde, auf ein CNN für Bewegungsvektoren zu übertragen, kann die Leistung des letzteren erheblich steigern. Speziell führen wir dazu drei Strategien ein: Initialisierungstransfer, Überwachungstransfer und deren Kombination. Die experimentellen Ergebnisse zeigen, dass unsere Methode eine vergleichbare Erkennungsleistung wie der Stand der Technik erreicht, während unsere Methode 390,7 Bilder pro Sekunde verarbeiten kann – dies ist 27-mal schneller als die ursprüngliche Two-Stream-Methode.