SCHritt: Raum-Zeitliches fortschreitendes Lernen für die Erkennung von Videobewegungen

In dieser Arbeit schlagen wir den Spatio-TEmporal Progressive (STEP) Action Detector vor – ein fortschreitendes Lernframework zur räumlich-zeitlichen Aktionserkennung in Videos. Ausgehend von einer kleinen Anzahl grober Vorschlag-Würfel, verfeinert unser Ansatz die Vorschläge schrittweise über mehrere Phasen hinweg bis hin zu Aktionen. Auf diese Weise können hochwertige Vorschläge (d.h., die den Bewegungen der Aktionen entsprechen) in späteren Schritten durch die Nutzung der Regressionsausgaben aus früheren Schritten allmählich erzielt werden. In jedem Schritt erweitern wir die Vorschläge zeitlich anpassungsfähig, um mehr relevanten zeitlichen Kontext einzubeziehen. Im Vergleich zu früheren Arbeiten, die die Aktionserkennung in einem Durchgang durchführen, ist unser fortschreitendes Lernframework in der Lage, die räumliche Verschiebung innerhalb von Aktionstuben natürlicher zu behandeln und bietet daher eine effektivere Methode für die räumlich-zeitliche Modellierung. Wir evaluieren unseren Ansatz ausführlich auf UCF101 und AVA und zeigen überlegene Erkennungsergebnisse. Bemerkenswerterweise erreichen wir bei den beiden Datensätzen mit 3 fortschreitenden Schritten und unter Verwendung von jeweils nur 11 und 34 anfänglichen Vorschlägen ein mAP von 75,0 % und 18,6 %.