Command Palette
Search for a command to run...
Temporale deformierbare Residueller Netzwerke für die Aktionssegmentierung in Videos
Temporale deformierbare Residueller Netzwerke für die Aktionssegmentierung in Videos
Peng Lei Sinisa Todorovic
Zusammenfassung
Diese Arbeit befasst sich mit der zeitlichen Segmentierung menschlicher Aktionen in Videos. Wir stellen ein neues Modell vor – das temporale deformierbare Residualnetzwerk (TDRN) –, das darauf abzielt, Videointervalle auf mehreren zeitlichen Skalen zu analysieren, um Videobilder zu beschriften. Unser TDRN berechnet zwei parallele zeitliche Ströme: i) einen Residual-Stream, der Videoinformationen in voller zeitlicher Auflösung analysiert, und ii) einen Pooling-/Unpooling-Stream, der langreichweitige Videoinformationen auf unterschiedlichen Skalen erfasst. Der erste Stream unterstützt die lokale, fein-skalierte Aktionssegmentierung, während der zweite Stream multiskalaren Kontext nutzt, um die Genauigkeit der Frame-Klassifikation zu verbessern. Beide Ströme werden durch eine Reihe von temporalen Residual-Modulen mit deformierbaren Konvolutionen berechnet und auf der vollen Videolänge durch zeitliche Residuen gefasst. Unsere Evaluation an den Datensätzen University of Dundee 50 Salads, Georgia Tech Egocentric Activities sowie JHU-ISI Gesture and Skill Assessment Working Set zeigt, dass das TDRN die derzeitigen State-of-the-Art-Methoden in Bezug auf die Frame-Genauigkeit der Segmentierung, den segmentalen Edit-Score und den segmentalen Overlap-F1-Score übertrifft.