Temporale deformierbare Residueller Netzwerke für die Aktionssegmentierung in Videos

Diese Arbeit befasst sich mit der zeitlichen Segmentierung menschlicher Aktionen in Videos. Wir stellen ein neues Modell vor – das temporale deformierbare Residualnetzwerk (TDRN) –, das darauf abzielt, Videointervalle auf mehreren zeitlichen Skalen zu analysieren, um Videobilder zu beschriften. Unser TDRN berechnet zwei parallele zeitliche Ströme: i) einen Residual-Stream, der Videoinformationen in voller zeitlicher Auflösung analysiert, und ii) einen Pooling-/Unpooling-Stream, der langreichweitige Videoinformationen auf unterschiedlichen Skalen erfasst. Der erste Stream unterstützt die lokale, fein-skalierte Aktionssegmentierung, während der zweite Stream multiskalaren Kontext nutzt, um die Genauigkeit der Frame-Klassifikation zu verbessern. Beide Ströme werden durch eine Reihe von temporalen Residual-Modulen mit deformierbaren Konvolutionen berechnet und auf der vollen Videolänge durch zeitliche Residuen gefasst. Unsere Evaluation an den Datensätzen University of Dundee 50 Salads, Georgia Tech Egocentric Activities sowie JHU-ISI Gesture and Skill Assessment Working Set zeigt, dass das TDRN die derzeitigen State-of-the-Art-Methoden in Bezug auf die Frame-Genauigkeit der Segmentierung, den segmentalen Edit-Score und den segmentalen Overlap-F1-Score übertrifft.