ActionFlowNet: Lernen der Bewegungsdarstellung für die Aktionserkennung
Trotz der jüngsten Fortschritte bei konvolutionellen Neuronalen Netzen (CNN) in verschiedenen visuellen Erkennungsaufgaben ist das derzeit beste System zur Aktionserkennung noch auf manuell gestaltete Bewegungsmerkmale wie den optischen Fluss angewiesen, um die beste Leistung zu erzielen. Wir schlagen ein Multitask-Lernmodell namens ActionFlowNet vor, mit dem ein einzelner Netzwerkstrom direkt aus rohen Pixeln trainiert werden kann, um gleichzeitig den optischen Fluss zu schätzen und Aktionen mit konvolutionellen Neuronalen Netzen zu erkennen, wodurch sowohl Erscheinungsbild als auch Bewegung in einem einzigen Modell erfasst werden. Darüber hinaus geben wir Einblicke in die Auswirkungen der Qualität des gelernten optischen Flusses auf die Aktionserkennung. Unser Modell verbessert die Genauigkeit der Aktionserkennung deutlich um 31 % im Vergleich zu den besten CNN-basierten Aktionserkennungsmodellen, die ohne externe große Datensätze und zusätzliche optische Flussinformationen trainiert wurden. Ohne Vortraining anhand großer externer annotierter Datensätze erreicht unser Modell durch eine effektive Nutzung der Bewegungsinformation eine Wettbewerbsfähigkeit bezüglich der Erkennungsrate, die mit Modellen vergleichbar ist, die anhand großer annotierter Datensätze wie ImageNet und Sport-1M trainiert wurden.