MARS: Motion-Augmented RGB Stream für die Aktionserkennung

Die meisten modernen Ansätze zur Aktionserkennung basieren auf einer zwei-Stream-Architektur mit 3D-Konvolutionen: einem Erscheinungs-Stream für RGB-Bilder und einem Bewegungs-Stream für optische Fluss-Bilder. Obwohl die Kombination von Fluss und RGB die Leistung verbessert, ist die Berechnung präziser optischer Flüsse rechenintensiv und erhöht die Latenz der Aktionserkennung. Dies begrenzt die Anwendung zweistrombasierter Ansätze in realen Anwendungen mit strengen Latenzanforderungen. In diesem Paper stellen wir zwei Lernansätze vor, um einen herkömmlichen 3D-CNN, der ausschließlich auf RGB-Bildern arbeitet, so zu trainieren, dass er den Bewegungs-Stream nachahmt und somit die Berechnung von optischem Fluss zur Testzeit vermeidet. Erstens zeigen wir, dass das Netzwerk den Bewegungs-Stream mit hoher Treue nachbildet, indem wir eine merkmalsbasierte Verlustfunktion gegenüber dem Fluss-Stream minimieren. Zweitens nutzen wir zur effektiven Kombination von Erscheinungs- und Bewegungsinformation eine lineare Kombination aus der merkmalsbasierten Verlustfunktion und der herkömmlichen Kreuzentropie-Verlustfunktion für die Aktionserkennung. Wir bezeichnen den durch diese kombinierte Verlustfunktion trainierten Stream als Motion-Augmented RGB Stream (MARS). Als einziges Stream-Modell erreicht MARS eine bessere Leistung als RGB oder Fluss allein – beispielsweise 72,7 % Genauigkeit auf Kinetics gegenüber 72,0 % und 65,6 % bei RGB- und Fluss-Stream jeweils.