Bewegungsmerkmalsnetzwerk: Festgelegter Bewegungsfiltrierer für die Aktionserkennung

Raumzeitliche Darstellungen in Bildsequenzen spielen bei der Aufgabenstellung der Aktionserkennung eine wichtige Rolle. Frühere Ansätze, die optischen Fluss als zeitliche Information in Kombination mit einer Reihe von RGB-Bildern, die räumliche Informationen enthalten, nutzten, zeigten eine erhebliche Leistungssteigerung bei Aktionserkennungsaufgaben. Allerdings verursachen diese Methoden hohe Rechenkosten und erfordern ein Zweiströmen-Modell (RGB und optischer Fluss). In dieser Arbeit schlagen wir das MFNet (Motion Feature Network) vor, das Bewegungsblöcke enthält, welche es ermöglichen, raumzeitliche Informationen zwischen benachbarten Frames in einem vereinten Netzwerk zu kodieren, das von Anfang bis Ende trainiert werden kann. Der Bewegungsblock kann mit nur geringem zusätzlichen Aufwand an bestehende CNN-basierte Aktionserkennungsframeworks angehängt werden. Wir haben unser Netzwerk auf zwei Aktionserkennungsdatasets (Jester und Something-Something) evaluiert und durch das von Grund auf Training der Netzwerke wettbewerbsfähige Leistungen für beide Datasets erzielt.